首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对短语文本的分类、聚类、信息查询问题,提出了一种新的中文短语文本相似度计算方法.用该方法计算出的文本相似度及一个比较文本与多个被比较文本所得相似度变化趋势是合理的,因此可以满足短语文本分类/聚类和信息查询的需要.  相似文献   

2.
一种deep web数据源下重复记录识别模型   总被引:1,自引:0,他引:1  
使用deep web数据源下重复记录识别模型对从多个deep web数据源中抽取出来的半结构化和无结构化的数据进行处理.首先,在数据预处理模块中将所抽取的数据生成实体记录的形式,然后,在异构记录处理模块中利用在同构记录处理模块所得到的权值,计算各实体记录的相似度,得到重复记录.与传统的重复记录识别模型不同,所提方法是在模式匹配未知的前提下实现的;并且采用带有可选算法的多个相似度估算器以达到更好的匹配效率.实验证明,该重复记录识别模型是可行且有效的.  相似文献   

3.
文本相似度计算是文本分类、文本聚类、自动文摘、信息抽取的基础.文本相似度计算性能直接影响到文本分类、文本聚类、自动文摘的质量.另外文本相似度还应用于诸多自然语言处理任务中,本文对文本相似度计算问题进行了深入的研究,并根据自然语言的特点提出了通过比较两个文本关键语义对来计算文本的语义相似度.  相似文献   

4.
信息抽取的主要目的是从无结构的自然语言文本中抽取特定的事件、事实等信息,再转化为结构化或半结构化的信息。  相似文献   

5.
郭丽  刘磊 《教育技术导刊》2013,12(4):130-131
实体关系抽取和实体关系分类是信息抽取中重要的研究领域,不仅要识别文本中的实体,还要确定这些实体之间的关系,能够辅助机器对文本语义的理解。提出了一种基于关系相似度计算的实体关系分类模型,并针对7种常见实体关系进行了分类实验。  相似文献   

6.
基于统计的关键词抽取方法忽略了词语的深层语义信息,而词汇链的关键词抽取方法能弥补这一缺陷,但词汇链的构造需要计算语义相似度,而语义相似度的计算需要知识库的支持,提出了一种综合考虑词汇链和互信息模型的关键词抽取算法。首先对文本进行预处理。借助词汇链和互信息模型来表达词语间语义关系,以及对未包含词及相关联度高而相似度值不理想的关键词识别。实验结果表明:在准确率和召回率方面.较基于统计的和基于词汇链的关键词抽取算法均有所提高。  相似文献   

7.
陈慧炜 《文教资料》2010,(18):116-117
公安领域存在大量非结构化案件文本,使人工查询与整理存有困难。信息抽取作为应对海量信息的一门技术,能够有效处理案件信息的结构化问题。本文总结了目前信息抽取的方法技术,在实体识别、触发词获取和事件抽取等子任务方面所达到的水平,以及信息抽取在公安领域案件文本中的应用情况,并提出了未来的研究趋势。  相似文献   

8.
跨语言文本相似度计算在跨语言信息检索、数据挖掘、抄袭检测等领域有着重要应用,但是跨语言文本相似度计算因为不同语言文法、结构等问题,在空间映射、特征选择上与单语言文本相似度计算有很大差异。为解决上述问题,采用一种基于文本加权词共现关系的跨语言文本相似度计算方法,通过平行语料库构建跨语言词共现关系模型,使用该模型进行跨语言文本映射,对不同语言的文本进行相似度计算。该模型实际反映了某种语言中某些关键词共同出现时映射成另一种语言时的关键词概率分布。实验表明,该方法对跨语言文本排序的计算更接近人工评判标准。  相似文献   

9.
随着网络招聘的普及,求职者需要浏览和筛选的数据越来越多,如何从大量的、非结构化的网络信息中快速而准确地抽取需要的信息非常重要。基于VIPS视觉分割算法,利用网页所呈现出来的布局结构和视觉特征,对招聘页面进行视觉分割处理,在页面分割的基础上,抽取特定块内的文本信息,实现了关键词查找抽取感兴趣的视觉块内信息。实验结果表明,基于VIPS的职位信息抽取技术能够有效抽取出招聘页面内重要的文本信息,优化了信息抽取结果。  相似文献   

10.
词汇链能够帮助计算机正确理解词汇语义和掌握文档主旨,使得它在信息检索、文本挖掘和自动翻译等领域有着广泛的应用。提出了一种知网的中文词汇链抽取算法。该算法通过知网词典来规范词汇的语义并且通过计算词汇之间的语义相似性来确定词汇在具体语境中的语义。为了提高词汇链词汇语义的精确性和词汇链抽取的速度,算法采用非贪婪策略来确定词汇语义,按照贪婪策略来构建词汇链。实验结果表明该算法是有效的。  相似文献   

11.
为了提高语义Web服务的发现性能,从Web服务描述上下文中抽取语义标注的约束信息并生成新的更精确的语义标注,从而减少语义标注与参数之间的语义偏差,精化Web服务的语义描述.首先,从本体定义中抽取概念的约束模板,并对Web服务的描述文本进行句法分析;然后,根据约束模板,从句法分析树中抽取语义标注的约束信息,并构造新的概念表达式作为对应参数的新的语义标注.最后,提出了一种新的语义相似度度量方法以度量概念表达式的相似度.实验结果表明:该方法能够提高语义Web服务发现的平均准确率,且计算代价相对较小.从描述文本中抽取概念的约束信息,能够减少标注的语义偏差,更精确地表达语义Web服务的语义,提高Web服务的发现性能.  相似文献   

12.
由于当前信息抽取系统因知识库结构和内容的不同带来的搜索质量问题,将本体引入信息抽取中,有助于信息抽取系统对领域内的概念和概念之间的联系的统一认识,为用户提供更有价值的信息。提出了基于本体的文本信息抽取算法,通过本体元素描述抽取的文本信息。最后,利用此算法对某领域样本Web页面进行抽取并分析。实验表明性能有所提高。  相似文献   

13.
针对文本类型数据的分类进行研究,用VSM模型和TF IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。  相似文献   

14.
句子相似度计算模型在基于实例的机器翻译中有着举足轻重的地位。提出了一种基于多特征加权的句子相似度计算模型,在对中文句子的词形、词序、句法和语义4种特征相似度计算的基础上,融合这4种特征,通过采用不同的特征权重来调节不同特征对句子相似度计算的影响,使得句子相似度计算更加准确。实验结果表明,该算法在计算句子相似度方面准确性较高。  相似文献   

15.
Lucene中的相似度计算可以让用户得到与查询词相似程度最高的文本,以及文本与查询词的相似程度,因此是Lucene搜索引擎的一个很重要的部分。最后的得分通过评分公式来实现,它的性能直接影响了评分结果,因此针对评分公式算法加以改进,改进后的Lucene相似度计算评分公式更准确地为用户提供所需要的信息。  相似文献   

16.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。  相似文献   

17.
在中文信息处理中,句子相似度计算是一项基础而核心的研究课题,长期以来一直是人们研究的一个热点和难点.句子相似度计算在实际中有着广泛的应用,它的研究状况直接决定着其他一些相关领域的研究进展,如信息检索的相似句子匹配、自动问答的问题匹配与答案抽取等,句子相似度计算都是非常重要的环节.本文提出了一种基于依存关系匹配的句子相似度计算方法,利用词语内在概念和词语相互依存关系计算句子之间的相似度.结果表明,该算法能显著提高返回结果的准确率.  相似文献   

18.
传统的文本信息过滤算法仅能实现结构对应层次上的判断,无法体现文本的语义.本文介绍一个能对Web页文本信息进行语义过滤的系统,通过分词、生成语义框架和计算框架间相似度,对相似度大于阈值的Web页进行过滤.试验表明,语义过滤能较好地甄别文本的不同观点,准确度较单纯关键字过滤有明显提高.  相似文献   

19.
为在使用康复量表时给康复师提供国际标准化功能残疾和健康分类(ICF)推荐的编码,利用文本相似度实现康复量表的ICF映射.使用ICF以及6个脑卒中康复量表的中文文本数据,采用非监督的文档间文本相似度算法WMD,将康复量表条目映射为ICF类目.以ICF核心分类组合中的脑卒中综合版作为评价标准,分别进行top-1和top-5...  相似文献   

20.
安玲 《林区教学》2014,(9):91-93
提出了一种基于测地距离的多文档摘要方法。该方法首先利用可以揭示高维向量相似度的测地距来代替传统的向量夹角作为句子相似度的对比基础,然后通过TextTiling算法进行分割文本,利用基于Wordnet的概念向量空间模型消歧计算段落相似度来构建"文本关系图"产生文摘。在DUC上的实验结果表明,该算法能够有效地生成非受限领域的多篇文档摘要并全面反映文档的主要内容并能有效地提高文档摘要的质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号