共查询到20条相似文献,搜索用时 140 毫秒
1.
基于改进编辑距离的相似重复记录清理算法 总被引:1,自引:0,他引:1
相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。 相似文献
2.
传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。 相似文献
3.
文本分类是网络主题舆情分析中的关键技术,传统Web文本分类将文本关键词的相似度作为分类依据,丢失许多重要的语义信息,导致分类结果不够准确且计算量大.本文提出一种基于语义相似度的Web文本分类方法,利用特定的领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量,给出Web文本相似度的计算公式并实现基于语义相似度的KNN算法.结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少计算量并提高了分类精确度. 相似文献
4.
基于本体的语义相似度计算方法研究综述* 总被引:5,自引:0,他引:5
孙海霞钱庆成颖 《现代图书情报技术》2010,26(1):51-56
在对基于本体的词语语义相似度进行界定的基础上,对基于本体的语义相似度研究进行综述,分别阐述基于距离的语义相似度计算、基于内容的语义相似度计算、基于属性的语义相似度计算和混合式语义相似度计算等算法模型,最后从宏观层面指出今后本领域的研究方向。 相似文献
5.
经典向量空间模型中关键词相互独立的基本假设,造成了检索性能的限制.针对这一问题,本文介绍并分析了国内外学者对经典向量空间模型提出的改进研究.针对其研究的不足,通过分析经典向量空间模型的特点,构建领域本体以建立向量空间模型中关键词之间的语义联系,通过计算关键词之间的语义相似度,提出语义增量的概念,对关键词之间的语义联系进行量化分析.结合语义增量,对TF-IDF算法进行了改进,提出了STF-IDF算法,据此建立了语义向量空间模型,以期待提高经典向量空间模型在语义检索方面的性能.最后用实例验证了该模型在查全率和查准率方面均要优于原模型. 相似文献
6.
为提高多关键词查询的效率并减少多关键词查询的开销,提出一种基于语义聚类的多关键词查询算法——MKQBSC。该算法使得语义相似的节点聚为一类,节点加入、退出或节点的语义改变时,聚类将相应改变。查询请求在相邻的语义聚类之间转发,直至到达语义相似的聚类。仿真实验结果表明:与传统的基于对倒排表求交集的多关键词查询算法相比,MKQBSC算法所需的路由跳数和所产生的消息数更少。 相似文献
7.
8.
[目的/意义] 学科主题演化研究有助于掌握学科发展现状、研究热点、研究前沿和发展趋势等情况,是进行科技创新的基础,是面向科技创新的重要研究方向。[方法/过程] 提出一种语义分类的学科主题演化分析方法:将关键词分为研究问题、研究方法和研究技术3类,构建不同语义分类的共词网络;然后基于Fast Unfolding社区发现算法识别具有语义特征的社区(主题);利用相似度算法计算相邻子时期主题间的相似度,构建学科主题演化图谱,以分析某学科领域研究问题、研究方法和研究技术的变化,实现深度、细致的学科主题演化分析。[结果/结论] 通过对2012-2015年CNKI数据库收录的我国大数据研究领域相关论文数据的处理分析,证明该方法的准确性和有效性。 相似文献
9.
传统的专家识别系统大多采用一组带权重的关键词来表征专家的专长,然而这种基于关键词的专长描述不足以概括专家的研究主题。提出基于领域本体概念的专长表示方法,通过构建相应的领域本体来描述领域核心概念和概念间关系,利用谷歌距离来计算关键词到本体概念的语义相似度,完成关键词到概念的映射,从而得到基于本体概念的专长表示。 相似文献
10.
通过对馆藏资源本体相关定义和特点进行分析,在传统语义相似度计算方法的基础之上,提出了一种综合的基于馆藏资源本体模型的语义相似度算法。并构建了竞争情报资源本体,对该算法进行了实例分析。该算法为馆藏资源本体的语义相似度计算提供了一种有效的量化途径。 相似文献
11.
12.
关键词是文献检索的主要入口之一,它能直观地反映主题,便于读者检索。其标引质量的高低直接影响到科技文献的有效传播和高效利用,影响着整个信息传播系统的优劣。对其传播效果进行分析,能更好地指导传播实践活动,促进科技期刊的编排质量和学术质量的不断提高。 相似文献
13.
基于高频关键词统计的“域级整合”分析方法研究 总被引:1,自引:0,他引:1
14.
15.
本文以"非典型肺炎"和"甲型H1N1流感"两个传染病作为研究样本,以中国知网(CNKI)数据库中的文献关键词作为语料库来源,基于用户关键词词频统计,并结合人工核查,分析同一概念的同义词和近义词以确立关键词词间的等同关系。目的是了解用户关键词和MeSH主题词之间的差异,分析用户表达偏好和习惯,进而为叙词表维护中的候选词汇选择提供一定的参考。 相似文献
16.
分析近年来我国科技期刊国际交流与合作的研究现状,并从科技期刊的国际交流、国际合作等方面综述我国科技期刊界关于期刊对外工作的研究成果. 相似文献
17.
简单分析了语法上界定汉语短语的困扰,提出一种利用语义搭配关系界定汉语短语的方法。首先,借助同义词词林实现语义知识的编码,用这种语义编码来表示语义搭配关系;其次,在此基础上,定义短语与已知语义搭配关系的相似性,计算词语搭配的合理性;最后,利用短语内部的语义搭配合理性优于其他搭配这一性质,用算法实现了基于语义的汉语短语界定过程。该方法应用于军事文本,从中界定出描述作战单位等信息的短语,取得较好的效果。此外,经该方法界定出的短语具有较强的语义信息,对信息抽取等实际应用具有一定的适用性。 相似文献
18.
为提高引文网络社区划分的准确性,以文档之间的语义关系以及引文之间的引用关系为基础,结合词汇在文档中的位置关系等信息,构建基于词汇语义加权的引文网络。通过GloVe模型对词汇向量化以充分利用词汇语义信息,结合WMD模型度量文献之间的相似度,把文档相似度的计算转变为在约束条件下求线性规划最优解的问题,结合文本的内容及结构特征对网络中的边进行赋权,以Louvain社区发现算法对加权后的引文网络进行社区划分,并对划分后的社区进行分析与检验,实验证明GloVe-WMD模型可提高引文网络社区划分的准确度。 相似文献
19.