共查询到20条相似文献,搜索用时 437 毫秒
1.
2.
3.
基于句子的文本表示及中文文本分类研究 总被引:1,自引:0,他引:1
文本挖掘技术是信息资源管理的一项关键技术.向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息.为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性.实验证明,基于句子包的KNN算法的平均精度(92.12%)和召回率(92.01%)是比较理想的. 相似文献
4.
多范畴信息系统的自动分类方法研究 总被引:1,自引:0,他引:1
为解决传统自动分类方法中的多范畴信息处理能力弱的问题,本文提出了一种基于多范畴属性约简和复合相似度计算的多范畴信息自动分类方法,该方法首先在分类中引入决策属性,然后计算各范畴的决策类和广义决策类,获得多范畴分类属性的约简集族,并依此集族分别计算多范畴信息系统分类对象的复合相似度,依据复合相似度的计算结果对分类对象进行排序和标引,实现自动分类。此方法有效地解决了多范畴不完备信息系统的自动分类问题,通过与Google自建系统的对比分析可知建立在此方法基础之上的多范畴信息分类系统在查全率和查准率方面明显优于传统的自动分类系统。 相似文献
5.
一种基于随机n-Grams的文本相似度计算方法 总被引:1,自引:0,他引:1
文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项.针对目前相关方法的诸多不足,提出了一种基于随机n-Grams(Random n-Gram,记为R-Gram)的长文本相似度算法,该算法具备语言无关性,且可以充分利用短n-Gram的细粒度检测特性和长n-Gram的高效检测特性.实验结果表明:基于R-Gram的文本相似度算法具有快速、操作简单、精度调控灵活等优点,在长文本相似度计算中具有良好的应用价值. 相似文献
6.
基于知识库的网页自动标引和自动分类系统的设计 总被引:15,自引:0,他引:15
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。 相似文献
7.
中文信息处理句法层面的研究是前一阶段的重点,而语义层面的研究尚处于起步阶段,但它对计算机语言理解来说更为关键;就一个句子的语义来说,非核心框架元素涵盖事件发生的时间、地点、方式等信息,在信息检索、信息提取和问答系统等应用领域是解决问题的重要依据.本文即根据中文框架元素实现规律的分析,研究非核心框架元素标注规则的构建方法.以认知语义领域介词结构的框架元素标注为例,构建了212条非核心框架元素标注规则,并通过实验分析了规则的使用效果和存在的问题,为计算机自动语义分析提供有效的方法. 相似文献
8.
针对图书出版领域的常用问题集研制自动问答系统,重点解决问句索引与检索问题。在问句索引中提出结合分词与词性标注、浅层语义分析等方法来索引问句;在问句检索中提出基于特征向量空间和语义类的方法来计算问句相似度。最后对该系统进行实现。 相似文献
9.
中文文本关键词自动抽取方法研究 总被引:6,自引:1,他引:5
随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长.文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务.关键词自动抽取是文本自动处理的基础和核心.汉语的特殊性加剧了中文文本关键词自动抽取的难度.本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法.该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度.实验表明,该方法简单、快速、断词错误率低,标引性能明显优于基于中文分词和TF/IDF的方法,可以满足大规模文本的在线处理要求. 相似文献
10.
文献分类法自动映射系统的构建——以《中国图书馆分类法》与《杜威十进分类法》为例 总被引:3,自引:0,他引:3
实现文献分类法之间的互操作是信息组织和检索的迫切需要。目前在国内外大多数分类法之间互操作研究项目中,基本上是采用人工判断的方法来建立类目映射关系。笔者认为,《中国图书馆分类法》(CLC)和《杜威十进分类法》(DDC)的类目表达的整体概念可以分解成多个概念因素,整体相似可以建立在部分相似的基础上,可通过计算类目概念因素的相似度得到类目整体概念之间的相似度。在CLC与DDC自动映射系统中,类目表达的概念可以分解成类名词、注释词、下位词、上位词,根据相似值最大原则对概念因素进行配对,通过配对概念的加权,实现类目之间相似度的自动计算。根据类目相似值、类目对应概念因素(即对应词)的差额、相等概念因素(即等价词)的类别3个参数制订了详细的类目映射规则。本文还介绍了CLC与DDC自动映射系统的结构、功能和使用。 相似文献
11.
12.
基于本体的语义检索技术研究与实现 总被引:3,自引:0,他引:3
姜华 《现代图书情报技术》2008,3(4):39-43
在本体基础上通过语义相似度和相关度的计算,利用语义推理将描述的隐含语义显式化,以充分挖掘出与检索内容相关的信息,实现相关信息的语义融合,提高查准率和查全率。研究基于本体的语义相似度和相关度的计算方法,并通过该语义检索方法的实现,证明该方法在语义检索系统开发中的可行性。 相似文献
13.
14.
15.
为提高医学文献检索的效率和检索结果输出的有效性,快速客观地为科研人员提供高信度、低冗余的参考文献,实现检索结果按相关度排序输出,就基于向量空间模型的文献相关度计算方案进行探讨,提出基于相关度的医学文献聚类分析和相关度排序。 相似文献
16.
《Journal of Informetrics》2007,1(1):26-34
Citation analysis was traditionally based on data from the ISI Citation indexes. Now with the appearance of Scopus, and with the free citation tool Google Scholar methods and measures are need for comparing these tools. In this paper we propose a set of measures for computing the similarity between rankings induced by ordering the retrieved publications in decreasing order of the number of citations as reported by the specific tools. The applicability of these measures is demonstrated and the results show high similarities between the rankings of the ISI Web of Science and Scopus and lower similarities between Google Scholar and the other tools. 相似文献
17.
探讨了音乐旋律特征的匹配检索,通过将检索过程分解为三个步骤:字符串匹配检索、相似度计算和相关度计算来对旋律轮廓中的不同特征进行相应的计算处理,得到最终的检索结果并总结了音乐旋律特征的匹配检索模型。 相似文献
18.
19.
综述国内外学术论文复制检测的研究现状,针对存在的问题提出以后研究的新思路: 构建某一学科领域学术论文语料库;以信息论为工具,针对某学科领域建立基于学术论文语料库的统计语言模型;结合学术论文抄袭剽窃的特点,通过赋予描述资源对象语义信息的不同元数据项以不同的权函数,设计相似度算法;使用Lemur工具箱,在标准的TREC文档集上对模型和算法进行检验;与Turnitin侦探剽窃系统进行实验对比,评价该模型和算法的有效率和效果。 相似文献