共查询到20条相似文献,搜索用时 31 毫秒
1.
语义相似度计算在信息检索、文本聚类、语义消歧等方面有着广泛的应用。为提高信息检索的查全率与查准率,提出一种本体概念综合语义相似度计算方法。该方法在本体概念语义距离的计算中引入了多种权重因子,并且综合考虑了本体概念语义重合度、本体概念属性对相似度的影响。实验分析发现,该方法比传统计算方法更加准确、有效,具有一定的理论及实用价值。 相似文献
2.
3.
为了克服自然语言表达形式的多样性和文本分类的粗略性,将潜在语义分析和谱聚类方法结合起来对语料库进行处理,构造一个语义空间,最终使用向量空间模型对文本进行相似性计算。实验证明,该方法可有效提高语义相似性计算的准确度。 相似文献
4.
传统的文本信息过滤算法仅能实现结构对应层次上的判断,无法体现文本的语义.本文介绍一个能对Web页文本信息进行语义过滤的系统,通过分词、生成语义框架和计算框架间相似度,对相似度大于阈值的Web页进行过滤.试验表明,语义过滤能较好地甄别文本的不同观点,准确度较单纯关键字过滤有明显提高. 相似文献
5.
针对FIHC文本聚类算法基于频繁词集实现聚类而未考虑词语间潜在语义联系的缺陷,对FIHC算法进行了有效改进。通过把基于知网的语义相似度计算方法归并到FIHC的Score函数中,有效的改善了score函数单纯的基于向量空间模型的不足。通过实现证明,改进后的FIHC算法明显的提高了聚类质量。 相似文献
6.
7.
8.
聚类问题的关键是把相似的事物聚集在一起,因此相似度计算是进行文档聚类的首要问题.XML模式是XML文档结构的体现,对XML文档的聚类可以通过XML模式的聚类来实现.本文提出一种基于XML模式元素的文档聚类方法,通过计算XML模式元素间的相似度来对文档进行聚类,综合考虑了XML模式中元素的结构和语义信息,进一步提高了计算相似度的精度,提高聚类的准确性,并且易于提取聚簇的通用XML模式. 相似文献
9.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。 相似文献
10.
潘国清 《孝感职业技术学院学报》2009,12(1):88-92
文章研究受限语境下中文文本语义相似度计算,提出一种文本语义形式化的表示方法——语片表示法,实现《操作系统》课程主观题自动判分系统。通过系统自动判分和人工判分的对比实验,得到系统判分正确率为85.24%。与同类系统进行对比实验,本系统有效性与对比系统相当。 相似文献
11.
在传统Web服务的中,基于关键词的Web服务匹配缺乏语义支持,搜索效率低.语义Web技术与Web服务的结合,开辟了语义Web服务的研究领域,本文以所提出的匹配策略为主线,围绕语义Web服务层次松弛匹配机制,依次展开服务类别、服务文本描述、服务功能、服务质量四个层次的匹配研究,实现了从语法相似度、语义相似度和QoS相似度上对Web服务的选择. 相似文献
12.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。 相似文献
13.
为了提高语义Web服务的发现性能,从Web服务描述上下文中抽取语义标注的约束信息并生成新的更精确的语义标注,从而减少语义标注与参数之间的语义偏差,精化Web服务的语义描述.首先,从本体定义中抽取概念的约束模板,并对Web服务的描述文本进行句法分析;然后,根据约束模板,从句法分析树中抽取语义标注的约束信息,并构造新的概念表达式作为对应参数的新的语义标注.最后,提出了一种新的语义相似度度量方法以度量概念表达式的相似度.实验结果表明:该方法能够提高语义Web服务发现的平均准确率,且计算代价相对较小.从描述文本中抽取概念的约束信息,能够减少标注的语义偏差,更精确地表达语义Web服务的语义,提高Web服务的发现性能. 相似文献
14.
林滨 《福建工程学院学报》2016,(1):80-85
针对文本类型数据的分类进行研究,用VSM模型和TF IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。 相似文献
15.
胡青 《湖北第二师范学院学报》2011,(2):62-65
本文基于语义桌面技术,提出类XPath的语义目录技术。首先将个人电脑的桌面资源转化成通过RDF(S)统一描述的语义资源。接着借助词汇-概念相似度计算及语义映射技术,将用户的类XPath的资源请求操作映射到RDF图。最后,形成语义级的类XPath的资源请求形式。通过类XPath的语义目录机制,一方面保持了用户传统分类目录结构的资源管理方式,另一方面,增强了本地资源的资源语义关联度,实现了本地资源的语义级分类和语义级资源定位,满足了个人电脑用户高效管理资源的要求。 相似文献
16.
17.
生物医学文本语义消歧研究中,上下文语义表示存在精度不高、忽略语言特性等问题,对此提出一种基于Bi-LSTM的新型语言模型。该模型通过考虑上下文词序将整个句义信息以无监督学习方式嵌入低维连续空间,并以此生成高质量的上下文表示,然后利用该方法构建歧义向量,最终计算cosine相似度,完成对歧义词的分类。实验表明,相比传统线性语言模型,基于Bi-LSTM生成的语义向量能更好地表示歧义词的语义信息,并在不同生物医学文本数据集中达到高准确度(95.01/91.27)。 相似文献
18.
实体关系抽取和实体关系分类是信息抽取中重要的研究领域,不仅要识别文本中的实体,还要确定这些实体之间的关系,能够辅助机器对文本语义的理解。提出了一种基于关系相似度计算的实体关系分类模型,并针对7种常见实体关系进行了分类实验。 相似文献
19.
针对特定领域的智能答疑系统中问句分类,利用加权LSA计算问句之间的语义相似度和KNN算法构造分类器进行问句分类,并对KNN分类算法及改进的KNN分类算法进行实验比较。结果表明加权的KNN分类器分类效果最好,达到了90.8%的精确率。 相似文献