首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 193 毫秒
1.
本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法.首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新的句子向量相似度的计算方法去除冗余;最后利用启发式规则进行加工,从而得到文本摘要.实验结果显示,系统修改后的文摘具有较好的连贯性和流畅性,与修改之前的文摘相比,文摘质量有明显提高.  相似文献   

2.
基于词共现模型的常问问题集的自动问答系统研究   总被引:1,自引:0,他引:1  
在自动问答系统中引入基于Frequently asked questions(FAQ)的辅助模块满足常见问题的回答是一种有效的手段,其中关键问题是用户提出的问句与FAQ中问句的相似度比较,找出FAQ中最相似的问句,并返回对应的答案.本文将词共现模型引入到问句的相似度匹配中,利用互信息构造共现词汇,同时,结合相关关键词个数及问句长度等信息计算问句之间的相似度.相关实验结果表明,结合词共现模型的FAQ自动问答系统具有较高的准确率和较快的响应速度.  相似文献   

3.
基于句子的文本表示及中文文本分类研究   总被引:1,自引:0,他引:1  
文本挖掘技术是信息资源管理的一项关键技术.向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息.为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性.实验证明,基于句子包的KNN算法的平均精度(92.12%)和召回率(92.01%)是比较理想的.  相似文献   

4.
多范畴信息系统的自动分类方法研究   总被引:1,自引:0,他引:1  
为解决传统自动分类方法中的多范畴信息处理能力弱的问题,本文提出了一种基于多范畴属性约简和复合相似度计算的多范畴信息自动分类方法,该方法首先在分类中引入决策属性,然后计算各范畴的决策类和广义决策类,获得多范畴分类属性的约简集族,并依此集族分别计算多范畴信息系统分类对象的复合相似度,依据复合相似度的计算结果对分类对象进行排序和标引,实现自动分类。此方法有效地解决了多范畴不完备信息系统的自动分类问题,通过与Google自建系统的对比分析可知建立在此方法基础之上的多范畴信息分类系统在查全率和查准率方面明显优于传统的自动分类系统。  相似文献   

5.
一种基于随机n-Grams的文本相似度计算方法   总被引:1,自引:0,他引:1  
文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项.针对目前相关方法的诸多不足,提出了一种基于随机n-Grams(Random n-Gram,记为R-Gram)的长文本相似度算法,该算法具备语言无关性,且可以充分利用短n-Gram的细粒度检测特性和长n-Gram的高效检测特性.实验结果表明:基于R-Gram的文本相似度算法具有快速、操作简单、精度调控灵活等优点,在长文本相似度计算中具有良好的应用价值.  相似文献   

6.
基于知识库的网页自动标引和自动分类系统的设计   总被引:15,自引:0,他引:15  
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。  相似文献   

7.
中文信息处理句法层面的研究是前一阶段的重点,而语义层面的研究尚处于起步阶段,但它对计算机语言理解来说更为关键;就一个句子的语义来说,非核心框架元素涵盖事件发生的时间、地点、方式等信息,在信息检索、信息提取和问答系统等应用领域是解决问题的重要依据.本文即根据中文框架元素实现规律的分析,研究非核心框架元素标注规则的构建方法.以认知语义领域介词结构的框架元素标注为例,构建了212条非核心框架元素标注规则,并通过实验分析了规则的使用效果和存在的问题,为计算机自动语义分析提供有效的方法.  相似文献   

8.
针对图书出版领域的常用问题集研制自动问答系统,重点解决问句索引与检索问题。在问句索引中提出结合分词与词性标注、浅层语义分析等方法来索引问句;在问句检索中提出基于特征向量空间和语义类的方法来计算问句相似度。最后对该系统进行实现。  相似文献   

9.
中文文本关键词自动抽取方法研究   总被引:6,自引:1,他引:5  
随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长.文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务.关键词自动抽取是文本自动处理的基础和核心.汉语的特殊性加剧了中文文本关键词自动抽取的难度.本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法.该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度.实验表明,该方法简单、快速、断词错误率低,标引性能明显优于基于中文分词和TF/IDF的方法,可以满足大规模文本的在线处理要求.  相似文献   

10.
物资分类是企业物资管理的一项基础工作,在大型企业中,物资数量巨大且类别繁多,所以需要借助计算机自动分类技术提高物资分类的效率.在自动分类的过程中,物资名称相似度是影响分类效果的关键因素之一.在分析了物资名称字符串特点和Jaro-Winkle算法的基础上,提出了一种基于动态权重的中文字符串相似度计算方法.通过在真实物资分类数据集上的实验,验证了这种相似度的计算方法可以有效提高物资分类的准确度.  相似文献   

11.
用于Web文本分类的快速KNN算法   总被引:12,自引:0,他引:12  
王煜  白石  王正欧 《情报学报》2007,26(1):60-64
KNN算法是一种简单、有效、非参数的Web文本分类方法。传统KNN方法的明显缺陷是样本相似度的计算量很大,使其在具有大量高维样本的Web文本分类中缺乏实用性。本文提出一种快速查找精确的k个最近邻的FKNN(Fast-k-Nearest-Neighbor)算法。FKNN算法首先选择一个样本作为基准点,并将所有样本按照距基准样本的距离进行排序并建立索引表,然后根据索引表和有序队列查找k个最近邻,减小了查找范围,极大降低了相似度计算量。  相似文献   

12.
基于本体的语义检索技术研究与实现   总被引:3,自引:0,他引:3  
在本体基础上通过语义相似度和相关度的计算,利用语义推理将描述的隐含语义显式化,以充分挖掘出与检索内容相关的信息,实现相关信息的语义融合,提高查准率和查全率。研究基于本体的语义相似度和相关度的计算方法,并通过该语义检索方法的实现,证明该方法在语义检索系统开发中的可行性。  相似文献   

13.
文本主观题自动阅卷的关键是提高考生答案文本和试题标准答案文本之间相似度计算结果的准确率。参考文本试题人工阅卷方法,提出一种结合人工制定文本相似标准、词语集合及词语次序和同义词的短文本相似度计算方法,设计并实现相应文本主观题阅卷系统。建立试题人工评分标准库,并在387道银行培训领域真实考题数据集上进行自动阅卷与人工阅卷结果对比实验。结果显示,文本试题自动阅卷结果与人工阅卷结果相比,完全相同的达到58%,准确率达到80%左右。  相似文献   

14.
计算机识别汉语同义词的两种算法比较和测评   总被引:9,自引:0,他引:9  
以词素为单位进行相似度计算 ,在许多方面解决了字面相似度算法中不合理的问题 ,但汉语分词、词义分解、词素分类体系及其编码问题又亟待解决。基于语义的词素相似度算法优于基于单汉字的字面相似度算法 ,是今后的研究重点。表 4。参考文献 9。  相似文献   

15.
为提高医学文献检索的效率和检索结果输出的有效性,快速客观地为科研人员提供高信度、低冗余的参考文献,实现检索结果按相关度排序输出,就基于向量空间模型的文献相关度计算方案进行探讨,提出基于相关度的医学文献聚类分析和相关度排序。  相似文献   

16.
Citation analysis was traditionally based on data from the ISI Citation indexes. Now with the appearance of Scopus, and with the free citation tool Google Scholar methods and measures are need for comparing these tools. In this paper we propose a set of measures for computing the similarity between rankings induced by ordering the retrieved publications in decreasing order of the number of citations as reported by the specific tools. The applicability of these measures is demonstrated and the results show high similarities between the rankings of the ISI Web of Science and Scopus and lower similarities between Google Scholar and the other tools.  相似文献   

17.
探讨了音乐旋律特征的匹配检索,通过将检索过程分解为三个步骤:字符串匹配检索、相似度计算和相关度计算来对旋律轮廓中的不同特征进行相应的计算处理,得到最终的检索结果并总结了音乐旋律特征的匹配检索模型。  相似文献   

18.
敏捷供应链中知识服务检索的语义相似度问题研究   总被引:1,自引:0,他引:1  
针对钢铁行业敏捷供应链本体,通过分析传统的语义相似度计算方法,改进其不足,综合考虑概念、属性和概念间关系这三个影响因素,构建一个语义相似度计算模型,可以有效提高知识服务检索的质量和效率,得到满足知识服务用户需求的信息。  相似文献   

19.
综述国内外学术论文复制检测的研究现状,针对存在的问题提出以后研究的新思路: 构建某一学科领域学术论文语料库;以信息论为工具,针对某学科领域建立基于学术论文语料库的统计语言模型;结合学术论文抄袭剽窃的特点,通过赋予描述资源对象语义信息的不同元数据项以不同的权函数,设计相似度算法;使用Lemur工具箱,在标准的TREC文档集上对模型和算法进行检验;与Turnitin侦探剽窃系统进行实验对比,评价该模型和算法的有效率和效果。  相似文献   

20.
基于K-近邻方法的科技文献分类   总被引:4,自引:1,他引:3  
鲍文  胡清华  于达仁 《情报学报》2003,22(4):451-456
本文提出了一种在小样本数据下、无需分词处理的科技文献分类器建造方法.分析了科技文献的特点,提出了抽取科技文献的关键词作为分类特征词条,以文献的标题、关键词和摘要作为文档主题信息进行词频统计分析建立分类器.最后分别进行了基于最近邻决策和K-邻近决策的分类效果实验研究,实验证明基于欧氏距离相似性测度和基于余弦相似性测度的文本分类效果并不存在显著的差别,K-邻近决策的分类效果要优于最近邻决策的分类效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号