首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 718 毫秒
1.
围绕文本聚类中的文本表示和相似度计算两个基本的问题,对目前学界提出的文本表示方法和相似度计算方法进行了分类和较为全面的综述,将文本表示模型分为向量空间模型、语言模型、后缀树模型、本体等,相似度计算方法分为基于向量空间模型的相似度计算,基于短语的相似度计算方法和基于本体的相似度计算方法。  相似文献   

2.
本文提出了利用后缀树模抽的最大相似度优先聚类方法,通过构造文档集的广义后缀树模型抽取短语作为特征项并映射到M维向量空间模型;计算文档间的相似度矩阵,对任意两个文档之间的相似度进行降序排列,优先合并具备最大相似度的文档对形成初始聚类;合并初始聚类得到最终聚类结果。  相似文献   

3.
一种基于TFIDF方法的中文关键词抽取算法   总被引:4,自引:1,他引:3  
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法.该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词.通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著.  相似文献   

4.
文章介绍了两种用来发现重复词句的算法——基于后缀树的方法和基于倒排索引的方法。  相似文献   

5.
本文主要研究了查询语义树的生成策略、用户查询语义的提取机制,以及查询语义树中语义边界的确定方法。通过查询语义树产生候选扩展词,再计算候选扩展词与所有查询项在初检局部文档集合中的共现度,用以评估扩展词质量,使得扩展词与用户查询所蕴涵的主题具有较强的语义相关性。实验结果表明,与传统向量空间模型检索算法比较,查询性能有明显的改善。  相似文献   

6.
一种基于向量空间模型的改进文本分类算法   总被引:2,自引:0,他引:2  
牛玲 《情报杂志》2006,25(6):63-64,67
探讨了基于向量空间模型的文本分类技术,通过规范化向量空间模型术语,论述了向量空间模型中TD-IDF向量化文档的不足;提出基于位置等因素的权重改进算法;借助扩展的潜在语义索引算法KLSC和辅助主题词表来消除模型很难处理一词多义、一义多词的现象;根据用户个性化的服务需求,给出了个性化服务的意见。  相似文献   

7.
文本的向量空间模型是把文本量化为空间里的向量,文本相似度的计算即对向量相似性的计算。本文通过分析传统的基于向量空间模型(VSM)文本相似度计算算法存在的不足,提出一种改进的文本相似度计算算法。改进算法充分考虑到了文本间向量空间模型相似度比较忽略了文本长度的缺点,引入文本长度参数,并在基于互信息的特征词抽取时考虑词频的因素对文本相似度的影响,有效减少了相似度低的文本干扰。实验结果验证了改进算法的有效性和准确性。  相似文献   

8.
针对目前常用的信息检索算法普遍存在查询性能不高的问题。本文提出了一种基于AWAR算法的信息检索扩展查询模型,该模型首先采用传统向量空间模型算法对检索目标进行初检,然后利用最小完全加权置信度阈值生成完全加权关联规则,最后根据规则提取扩展词,得到查询结果。实验表明,基于AWAR算法的信息检索扩展查询模型的检索性能比传统向量空间模型算法和基于局部上下文分析的查询扩展的检索算法要高。  相似文献   

9.
李海蓉 《情报科学》2012,(6):852-857
简要介绍语义模板的概念,提出基于语义模板向量空间的文档自动分类模型。利用支持向量机(SVM,Support Vector Machine)分类算法对文档测试集进行基于语义模板空间、词向量空间的分类实验,实验结果表明,基于语义模板空间的文本分类性能比基于词向量空间的分类性能要高。  相似文献   

10.
相关性是信息学科尤其是信息检索领域的一个相对热门的研究课题。立足于相关性评价,在简要论述研究现状后,着重分析检索结果相关性的两个基本评价指标-查全率和查准率二值改进算法以及基于布尔模型、向量空间模型和概率模型的计算方法,从系统和用户两个角度出发,提出一些提高信息检索相关性计算准确性的改进建议。  相似文献   

11.
加布 《西藏科技》2010,(2):30-30
目的为调查研究林芝地区工布江达县猪旋毛虫发病现状、感染率、流行动态、流行病学特点。方法应用购自河南百奥生物工程有限公司的猪用旋毛虫快速诊断试纸条,对工布江达县3个点(措高乡、株拉乡、个体养殖基地)200头猪进行血清学检测。结果工布江达县猪旋毛虫血清学阳性率为零。结论调查表明全县范围内经过一年两次的驱虫,工布江达县猪旋毛虫病的防治总体取得了显著成效。  相似文献   

12.
目的分析西藏地区藏族2型糖尿病患者伴发血脂代谢异常情况,探讨血脂异常对糖尿病患者引起血管并发症方面的临床意义。对象2006年9月至2008年9月在本院住院的藏族2型糖尿病患者112例。方法所有患者根据有无合并血管病变分为两组,两组的血脂检测情况进行对比,同时与154例健康体检者进行比较。结果T2DM患者较对照组血脂显著异常,伴有血管合并症的T2DM患者较无血管合并症的T2DM患者血脂异常情况更明显。  相似文献   

13.
技术创新型企业具有开放性、非平衡性、非线性、涨落性,是一个自组织系统,技术创新型企业具有自主性、自适应、自催化、自调控等自组织特征。技术创新型企业的自组织运行需要一定的社会环境。  相似文献   

14.
为了查明莲花山水质的水文地质,化学成分特征和应用价值,先后对清心泉,灵龟吐液进行6次观察和2次水质分析,初步证实:两口井水质清沏明亮,口感好,富含偏硅酸和钠离子,现已测定的各项指标均达以国家饮用矿泉水标准,是一种饮用天然偏硅酸矿泉水。  相似文献   

15.
本文通过阿里地区七县五场动物疫病流行病学的调查,总结和分析了阿里地区动物疫病流行情况、防治现状及存在的主要问题,并提出了防治建议.  相似文献   

16.
程忠红  韩富贵 《西藏科技》2010,(2):26-27,29
西藏的民俗文化博大精深,怎样使旅游者在较短的时间内了解体验,是西藏旅游开发要考虑的问题。本文将在对拉萨桑木民俗村个案的调研基础上,对其存在的问题进行了解析,提出了对拉萨民俗村旅游资源开发的对策。  相似文献   

17.
格桑 《西藏科技》2007,(8):55-56,59
本文根据西藏地区1971—2000年的汛期逐日降水资料,分析汛期极值降水日数、一日最大降水量、极值降水指数、极值降水量等极值降水统计特征时空分布规律,得出了一些有意义的结论。  相似文献   

18.
研究拉萨SOS儿童村儿童的体格状况和生长发育情况。调查结果发现儿童的身高、体重、胸围和坐高的发育符合一般的生长发育规律,随着年龄的增大而增加。与1982年拉萨市城区儿童比较,7-14岁的儿童在身高、体重、胸围和坐高各方面大多数都有不同程度的增长,增长值最高的年龄组男孩子为12和14岁组,女孩为10、11和14岁组。但总体情况不容乐观,与全国其他城市同等年龄儿童比较差距甚大,这与高原缺氧、儿童缺乏体育锻炼和饮食结构的不合理等有关。建议所有教育工作者、医疗卫生工作者和家长,加强学习,提高认识。  相似文献   

19.
本文针对改则县重大动物疫病流行现状进行分析,并提出了相应的建议.  相似文献   

20.
设K为代数闭域k的有限生成扩域.C:f(x)=ayn为K上曲线,其中f是k上至少有3个单零点的多项式且n>3是正整数,n不是域k的特征的倍数,再设a■Kn,那么曲线C不能定义在k上,即曲线C:(x)=ayn不会k(a)同构于一条k上的曲线.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号