首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 22 毫秒
1.
文章提出一种基于语义知识库知网和向量空间模型理论的文档语义模型构建方法,论述知网知识描述方式 的特点,提出一种滑动窗口语义消歧算法,利用知网的义原层次体系对文档模型进行语义化处理,根据语境确定语义, 将模型特征项转换为关键词的义项,较好地解决了由于自然语言中存在的同义、近义、上下位等语义关系而产生的模型 偏差问题。通过计算义项相似度,加权得到文档相似度。实验证明,该方法较好地描述了文档特征,能够达到良好的聚 类效果,是切实可行的。  相似文献   

2.
一种面向语义的信息检索方法   总被引:1,自引:0,他引:1  
传统的信息检索技术忽视了语义对检索过程的影响,这是造成查准率不高的一个重要原因.论文提出了一种面向语义的信息检索方法,该方法强调使用基于知网的语义处理技术实现对用户查询需求和目标文档的语义标注,使用基于知网的词汇链技术实现对文档特征词汇的过滤.一方面可以实现语义级别的检索匹配,另一方面可以降低大量无关词对检索结果的干扰.论文描述了一个实现该方法的信息检索系统SOIRS,并且利用该系统与传统检索系统做了对比实验.实验结果表明面向语义的信息检索方法在查准率方面要明显优于传统信息检索方法.  相似文献   

3.
基于知网理论开展对数字化档案信息的语义相似性进行研究。通过对数字化档案信息的语义知识的义原分析,建立一个语义词典"知网",在此基础上提出一个新的特征集合相似度计算方法来对档案信息类别间的相似度进行量化。  相似文献   

4.
基于多文档集合特征的多文档文摘生成方法在选取最优词时利用人工进行特征降维,方法过于机械,同时在回溯词鄄文档矩阵进行文本相似度计算时,存在对稀疏矩阵无法计算的问题.本文对话题追踪结果进行多文档文摘研究,提出一种有效的多文档文摘语义空间降维方法.新方法在整个话题范围内构造语义空间词鄄文档矩阵,采用奇异值分解对原始词鄄文档矩阵进行特征降维,同时构造能充分包含原始文档词汇信息且维数低的转换矩阵F,利用它来回溯词鄄文档矩阵,完成低维空间下的词相似度计算,进而完成文本单元相似度计算以及文本单元聚类,最终生成多文档自动文摘.实验结果表明,该方法能够对语义空间词鄄文档矩阵进行完美降维,同时避免稀疏矩阵无法计算的问题,对最终生成的多文档文摘有着很好的效果.  相似文献   

5.
基于知网和术语相关度的本体关系抽取研究*   总被引:1,自引:0,他引:1  
 提出一种基于知网和术语相关度的关系抽取方法。首先通过句法分析提取术语的上下文特征,结合自然语言特征和互信息的方法计算术语之间的相关度,然后使用术语的义原和动态角色作为关键词,在知网语义关系框架中定位关系,并为关系指定明确的语义标签。实验结果表明该方法具有较好的实用效果。  相似文献   

6.
基于概念向量空间的文档语义分类模型研究   总被引:1,自引:0,他引:1  
针对传统文档自动分类方法和目前语义分类方法中存在的问题,提出一种新的基于概念向量空间的文档语义分类模型,该模型通过字符匹配算法将原文档高维词向量空间中相互独立的词项匹配到描述本体概念的属性集合,进而映射成属性集合对应的本体概念,形成低维的、语义丰富的文档概念向量空间。采用目前非常流行的数据集“20Newsgroups”作为实验数据集,对基于概念向量空间的文档语义分类模型进行实验验证。实验结果表明:提出的文档语义分类方法与传统基于词向量空间的文档分类方法相比,能够极大地降低向量空间维度,提高文档分类的性能。   相似文献   

7.
文章借鉴已有文本处理、特征提取和语义相似度计算方法,建构了公共危机事件案例语义相似度计算模型,并以兰州大学的中国公共危机事件案例知识库为例,选择案例库中两种不同类型的四个案例进行了结果验证.实验结果表明,本文提出的案例相似度计算模型方法具有有效性,为公共危机事件的案例推理增加了一种可借鉴的方法.  相似文献   

8.
识别不同学科间共有的研究内容是学科交叉知识发现的一种研究思路。学科间具有相似语义的研究内容,能够更好地体现学科之间知识的融合、交流现象。针对从科技文献数据中获取语义相似学科交叉研究主题的问题,本文提出了一种基于无监督对比学习的科技文献及关键词语义相似关系表示学习方法,构建了一种语义相似学科交叉主题识别模型。该模型将Spearman相关系数作为评价学科交叉主题的指标,解决了现有研究缺少学科交叉研究数据集的问题。研究结果表明,本文模型较好地获取了科技文献及其关键词之间的语义相似关系,能够较好地反映两个学科之间的交叉态势。  相似文献   

9.
近年来XML凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据表示和数据交换的标准.XML文档聚类是数据挖掘研究中热点一个,为网络信息资源的搜集、组织及检索利用提供良好的技术支持.本文首先介绍了目前主要的XML文档聚类算法,然后在利用WordNet对XML文档中的标记进行语义消歧的基础上,提出了一种新的基于语义标记树的XML文档相似度计算方法,并通过最近邻算法进行聚类,最后在用于XML检索研究的数据集上进行实验,证实其确实是一种比较有效的XML文档聚类方法.  相似文献   

10.
本文依据中国知网、《中图法》、《中国分类主题词表》等知识库,通过对领域词语的概念化处理、建立推理规则、过滤掉阈值较低的词语等手段,形成领域词语本体知识库;然后,根据待分类题名的语义逻辑关系,结合基于距离的语义相似度的计算规则,形成一种应用于领域词语本体的题名自动分类方法,该方法在一定程度上弥补了文献题名特征不足的缺点,且提高了准确率和召回率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号