首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
基于汉字聚类特征的中文字符串相似度计算研究   总被引:1,自引:0,他引:1  
采用聚类分析的方法,对汉字的特征进行研究和分析,找出其内在规律,根据汉字具有“成簇性”的特点,对中文字符串进行精细化匹配,给出基于改进编辑距离的相似度计算模型。实验结果表明,该模型对中文字符串的相似度具有更为精细的体现。  相似文献   

2.
物资分类是企业物资管理的一项基础工作,在大型企业中,物资数量巨大且类别繁多,所以需要借助计算机自动分类技术提高物资分类的效率.在自动分类的过程中,物资名称相似度是影响分类效果的关键因素之一.在分析了物资名称字符串特点和Jaro-Winkle算法的基础上,提出了一种基于动态权重的中文字符串相似度计算方法.通过在真实物资分类数据集上的实验,验证了这种相似度的计算方法可以有效提高物资分类的准确度.  相似文献   

3.
在对当前术语语义相似度集成相关研究进行分析的基础上,针对典型集成方法存在的不足,构建了基于多种测度的术语相似度集成计算模型.首先对集成计算模型的设计思路进行论述;其次提出了在模型中应用的相似度网络初始化算法、术语语词相似度改进算法、术语语境模板相似度改进算法以及基于搜索引擎的术语相似度改进算法,并实现了该集成计算模型;最后对该模型中所使用的各种相似度测度计算性能指标以及完全计算SVM集成和条件计算SVM集成性能指标进行对比评测.实验证明,该计算模型的F1综合性能达到0.8797,并能缩短32%的计算时间,有效提升了术语相似度综合计算性能.  相似文献   

4.
[目的/意义]针对目前医学领域基于主题的语义相似度计算研究较少,尚不足以揭示主题间在语义层面的关系,提出一套用于主题间语义相似度计算的方法,进而从语义角度判断主题间关系,为主题新颖性判断、主题关联研究等提供参考。[方法/过程]以MeSH词表为语义计算的基础,剖析词表结构与现有研究成果,从入口词、语义距离、注释3个维度综合测度主题间的语义相似度,利用PubMed中2011-2014年干细胞领域的文献进行实证研究。[结果/结论]利用通用验证主题词对,验证了本文所提3个测度维度的有效性。通过主题间语义相似度的计算,发现干细胞领域2011-2014年较为新颖的主题为未成年人干细胞研究。后续研究中还需融入基于统计的主题相似度,从而更加全面地揭示主题间的关系,发现语义层面领域的新颖性研究主题。  相似文献   

5.
随着各种本体构建方法和诸多实验本体的相继涌现,以跨本体通信、跨本体协同为目的的本体对应相关研究在近年来受到国际学术界的普遍关注.为了最大限度复用现有本体,解决本体对应中跨本体映射的核心问题,在对当前本体映射中概念相似度的计算方法进行梳理和总结的基础上,提出了以"基于概念格的对象-属性相似度(object-attribute similarity based on concept lattice,OASBCL)"法计算跨本体映射中概念的相似度.通过对该方法在跨本体映射中的应用举例,阐明了方法的有效性.并在此基础上从概念格与本体互补、相似度要素指标、映射性质三个方面对该方法进行了讨论.以尝试探索一种能够支持异构本体间跨本体映射的形式化的概念相似度计算方法.  相似文献   

6.
基于本体的语义相似度计算方法研究综述*   总被引:5,自引:0,他引:5  
在对基于本体的词语语义相似度进行界定的基础上,对基于本体的语义相似度研究进行综述,分别阐述基于距离的语义相似度计算、基于内容的语义相似度计算、基于属性的语义相似度计算和混合式语义相似度计算等算法模型,最后从宏观层面指出今后本领域的研究方向。  相似文献   

7.
大多网页都是基于服务器端模板生成的,所以在同一个站点经常看到很多外观相同内容相似的网页.HTML是一种半结构化的标记语言,每个HTML网页都对应一个DOM树结构.网页的相似性表现结构上就是结构相似性.研究网页结构相似性的方法有很多,本文从DOM树中的链路结构的角度来研究不同网页间的相似性,并提出了基于链路压缩树的结构相似度度量模型.本文中的计算方法都用Python语言实现.通过实验,本文使用多种方法对不同网页间的相似度进行了计算和分析,实验数据表明,基于链路压缩树的结构相似度度量模型具有较好的适用性,其速度是传统方法不可比拟的.  相似文献   

8.
在对概念语义相似度方法调研的基础上,本文提出基于概念向量的文本语义相似度测度方法,借助MetaMap工具抽取文本中的概念术语,将概念术语通过词表层级结构转化为概念向量,通过计算两文本中概念向量的语义相似度来测度两文本的语义相似度。为验证基于概念向量文本语义相似度方法的准确性,选取TREC-05 genomics track数据进行实验,实验结果表明,本文提出的方法较常用的余弦方法更优,与专家评估方法更接近,在测度文本语义相似度上具有一定的可行性和有效性。  相似文献   

9.
 借鉴Rodriguez和Egenhofer提出的语义相似度计算模型,结合医学领域主题词表MeSH的特点,提出MeSH主题词表中的语义相似度计算方法,实验结果证明该方法是有效的。  相似文献   

10.
基于语义网计算英语词语相似度   总被引:14,自引:2,他引:14  
荀恩东  颜伟 《情报学报》2006,25(1):43-48
本文介绍一种基于WordNet的计算英语词语相似度的实现方法:从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度。向量包括三方面:(1)WordNet的同义词词集(Synset),(2)类属信息(Class),(3)意义解释(Sense explanation)。实验结果表明,这是计算英语词语相似度的一种可行的方法。  相似文献   

11.
传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。  相似文献   

12.
FCA中的概念语义相似度计算   总被引:2,自引:0,他引:2  
形式概念分析和领域本体是两种形式化方法,其目标都是构建概念的模型。提出一种计算FCA中的概念语义相似度的方法,实验结果表明,该方法对概念语义相似度计算是有效的。  相似文献   

13.
李向阳  张亚非 《情报学报》2005,24(1):100-106
简单分析了语法上界定汉语短语的困扰,提出一种利用语义搭配关系界定汉语短语的方法。首先,借助同义词词林实现语义知识的编码,用这种语义编码来表示语义搭配关系;其次,在此基础上,定义短语与已知语义搭配关系的相似性,计算词语搭配的合理性;最后,利用短语内部的语义搭配合理性优于其他搭配这一性质,用算法实现了基于语义的汉语短语界定过程。该方法应用于军事文本,从中界定出描述作战单位等信息的短语,取得较好的效果。此外,经该方法界定出的短语具有较强的语义信息,对信息抽取等实际应用具有一定的适用性。  相似文献   

14.
基于叙词表的概念语义相似度计算   总被引:3,自引:1,他引:2  
语义相似度计算是信息处理技术中的一个关键问题。提出基于叙词表、基于距离的概念语义相似度计算方法,详细叙述其计算流程。在此基础上,利用《农业叙词表》中的实际数据展开分析验证,从计算结果上看该方法基本可行,从实用的角度出发,可为叙词表的应用作一些尝试和探索。  相似文献   

15.
题名自动分类标引探讨   总被引:2,自引:0,他引:2  
本文重点论述计算机分类标引的一种方法:字面相似度语义逻辑分析法。根据字面相似度值的三种不同情况,通过语义逻辑关系分析,确定A级、B级阈值。A级为归类中心词。从而达到最终归类的目的,使归类结果更具科学性。  相似文献   

16.
[目的/意义] 准确地计算微博相似度可以提高微博主题挖掘效率,对舆情治理、保障信息安全具有实践意义。针对微博文本语义稀疏、高维的问题,提出一种融入微博非文本特征的超边相似度算法。[方法/过程] 分析微博舆情发生机制,利用超网络模型表示微博舆情主题形成过程,通过计算各层子网相似度及各层子网对主题形成的贡献度构建超边相似度算法。[结果/结论] 研究发现,论文所提出的相似度方法有助于提升微博舆情信息的主题聚类效果,特别是对于文字性表述相似程度高的微博信息,具有明显的主题区分性。  相似文献   

17.
利用多策略模糊综合评判的方法进行术语关系识别,首先采用多种相似度计算方法计算术语的相似度,然后利用连续属性离散化方法确定关系类别及阈值区间的划分,利用样本分布概率确定区间对类别的隶属度,利用粒子群算法和交叉验证法确定因素权重,最后利用模糊综合评判方法将所有相似度计算方法的计算结果进行融合处理,实现术语关系的识别。本研究将以中国科学技术信息研究所已有的新能源汽车领域汉语科技词系统中的术语作为测试集,用准确率、召回率和 F 值对关系识别的结果进行评价,论证该方法的有效性。  相似文献   

18.
基于主题概念的多文档自动摘要研究   总被引:4,自引:0,他引:4  
文章叙述了一种针对大规模文档集的综合性自动摘要的研究与实践。首先利用HOWNET来计算文献主题概念的内聚度,在此基础上,处理文档之间的相关度以及各自在整个文档集中的主题重要度等特征;其次阐述了基于文档综合主题辞和综合优先度的多文档自动摘要生成原理。实验结果表明,该系统经过对新闻多文档集进行综合性分析,生成的能有效地反映重要的主题内容。  相似文献   

19.
[目的/意义] 快速、准确地从突发网络舆情文本中识别事件。[方法/过程] 提出一种融合句法特征和句法相似度的网络舆情突发事件识别方法。结合句法特征提出面向事件的句法特征提取方法,利用事件语义标注和句法特征提取方法构造事件句法特征库,通过计算待测文本与句法库的句法相似度来识别网络舆情突发事件。[结果/结论] 以新型冠状病毒肺炎疫情为例,所提出网络舆情突发事件识别方法在该舆情下的最优相似度为0.93,在此相似度下从一段新的文本中识别出160个事件和30个非事件,F1值达到了0.848。通过方法测评证明网络舆情突发事件识别方法在利用句法相似度识别事件和进行相同相邻词性合并等方面创新的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号