首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
语义相似度计算在信息检索、文本聚类、语义消歧等方面有着广泛的应用。为提高信息检索的查全率与查准率,提出一种本体概念综合语义相似度计算方法。该方法在本体概念语义距离的计算中引入了多种权重因子,并且综合考虑了本体概念语义重合度、本体概念属性对相似度的影响。实验分析发现,该方法比传统计算方法更加准确、有效,具有一定的理论及实用价值。  相似文献   

2.
针对短语文本的分类、聚类、信息查询问题,提出了一种新的中文短语文本相似度计算方法.用该方法计算出的文本相似度及一个比较文本与多个被比较文本所得相似度变化趋势是合理的,因此可以满足短语文本分类/聚类和信息查询的需要.  相似文献   

3.
为了克服自然语言表达形式的多样性和文本分类的粗略性,将潜在语义分析和谱聚类方法结合起来对语料库进行处理,构造一个语义空间,最终使用向量空间模型对文本进行相似性计算。实验证明,该方法可有效提高语义相似性计算的准确度。  相似文献   

4.
传统的文本信息过滤算法仅能实现结构对应层次上的判断,无法体现文本的语义.本文介绍一个能对Web页文本信息进行语义过滤的系统,通过分词、生成语义框架和计算框架间相似度,对相似度大于阈值的Web页进行过滤.试验表明,语义过滤能较好地甄别文本的不同观点,准确度较单纯关键字过滤有明显提高.  相似文献   

5.
针对FIHC文本聚类算法基于频繁词集实现聚类而未考虑词语间潜在语义联系的缺陷,对FIHC算法进行了有效改进。通过把基于知网的语义相似度计算方法归并到FIHC的Score函数中,有效的改善了score函数单纯的基于向量空间模型的不足。通过实现证明,改进后的FIHC算法明显的提高了聚类质量。  相似文献   

6.
传统的舆情分析多采用文本聚类和分类技术,但是由于自然语言自身表达的复杂性和灵活性,文本聚类和分类技术很难从根本上反映话题评论人员对待话题的真实态度。针对文本聚类和分类技术的局限性,设计了应用于公司舆情分析的改进概念图算法。改进的概念图能表示部分概念节点的倾向性,利用改进的概念图计算每条评论的健康度,可有效地从语义分析角度计算评论语句的健康度。研究结果表明,应用于公司舆情分析的改进概念图算法,其正确率普遍高于基于文本聚类和分类技术的舆情分析方法。  相似文献   

7.
文本分类是文本数据挖掘领域的重要技术之一。从分类算法对文本语义信息的利用程度这一角度出发,将文本分类划分为基于词形的算法和基于语义的算法两类,对每类算法进行了描述,并对当今文本数据的多样性及文本分类算法改进的可选方向进行了研究。  相似文献   

8.
聚类问题的关键是把相似的事物聚集在一起,因此相似度计算是进行文档聚类的首要问题.XML模式是XML文档结构的体现,对XML文档的聚类可以通过XML模式的聚类来实现.本文提出一种基于XML模式元素的文档聚类方法,通过计算XML模式元素间的相似度来对文档进行聚类,综合考虑了XML模式中元素的结构和语义信息,进一步提高了计算相似度的精度,提高聚类的准确性,并且易于提取聚簇的通用XML模式.  相似文献   

9.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。  相似文献   

10.
文章研究受限语境下中文文本语义相似度计算,提出一种文本语义形式化的表示方法——语片表示法,实现《操作系统》课程主观题自动判分系统。通过系统自动判分和人工判分的对比实验,得到系统判分正确率为85.24%。与同类系统进行对比实验,本系统有效性与对比系统相当。  相似文献   

11.
在传统Web服务的中,基于关键词的Web服务匹配缺乏语义支持,搜索效率低.语义Web技术与Web服务的结合,开辟了语义Web服务的研究领域,本文以所提出的匹配策略为主线,围绕语义Web服务层次松弛匹配机制,依次展开服务类别、服务文本描述、服务功能、服务质量四个层次的匹配研究,实现了从语法相似度、语义相似度和QoS相似度上对Web服务的选择.  相似文献   

12.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。  相似文献   

13.
为了提高语义Web服务的发现性能,从Web服务描述上下文中抽取语义标注的约束信息并生成新的更精确的语义标注,从而减少语义标注与参数之间的语义偏差,精化Web服务的语义描述.首先,从本体定义中抽取概念的约束模板,并对Web服务的描述文本进行句法分析;然后,根据约束模板,从句法分析树中抽取语义标注的约束信息,并构造新的概念表达式作为对应参数的新的语义标注.最后,提出了一种新的语义相似度度量方法以度量概念表达式的相似度.实验结果表明:该方法能够提高语义Web服务发现的平均准确率,且计算代价相对较小.从描述文本中抽取概念的约束信息,能够减少标注的语义偏差,更精确地表达语义Web服务的语义,提高Web服务的发现性能.  相似文献   

14.
针对文本类型数据的分类进行研究,用VSM模型和TF IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。  相似文献   

15.
本文基于语义桌面技术,提出类XPath的语义目录技术。首先将个人电脑的桌面资源转化成通过RDF(S)统一描述的语义资源。接着借助词汇-概念相似度计算及语义映射技术,将用户的类XPath的资源请求操作映射到RDF图。最后,形成语义级的类XPath的资源请求形式。通过类XPath的语义目录机制,一方面保持了用户传统分类目录结构的资源管理方式,另一方面,增强了本地资源的资源语义关联度,实现了本地资源的语义级分类和语义级资源定位,满足了个人电脑用户高效管理资源的要求。  相似文献   

16.
文本聚类综述   总被引:1,自引:0,他引:1  
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘、智能搜索引擎、短文本信息处理等领域获得了广泛的应用。本文首先讨论了文本聚类(Text clustering)的应用,然后对文本聚类算法、聚类关键技术进行了综述。  相似文献   

17.
生物医学文本语义消歧研究中,上下文语义表示存在精度不高、忽略语言特性等问题,对此提出一种基于Bi-LSTM的新型语言模型。该模型通过考虑上下文词序将整个句义信息以无监督学习方式嵌入低维连续空间,并以此生成高质量的上下文表示,然后利用该方法构建歧义向量,最终计算cosine相似度,完成对歧义词的分类。实验表明,相比传统线性语言模型,基于Bi-LSTM生成的语义向量能更好地表示歧义词的语义信息,并在不同生物医学文本数据集中达到高准确度(95.01/91.27)。  相似文献   

18.
郭丽  刘磊 《教育技术导刊》2013,12(4):130-131
实体关系抽取和实体关系分类是信息抽取中重要的研究领域,不仅要识别文本中的实体,还要确定这些实体之间的关系,能够辅助机器对文本语义的理解。提出了一种基于关系相似度计算的实体关系分类模型,并针对7种常见实体关系进行了分类实验。  相似文献   

19.
针对特定领域的智能答疑系统中问句分类,利用加权LSA计算问句之间的语义相似度和KNN算法构造分类器进行问句分类,并对KNN分类算法及改进的KNN分类算法进行实验比较。结果表明加权的KNN分类器分类效果最好,达到了90.8%的精确率。  相似文献   

20.
为改善传统个性化推荐算法精准度不高的问题,使用评论数据作为数据集,先对评论数据作文本预处理和特征提取,然后使用LDA主题模型对文本特征数据建模,得到主题词分布,将其作为标签,同时使用LSTM网络作文本分类,通过计算得到好评率。最后把用户需求和标签利用潜在语义标引计算相似度,根据相似度和好评率大小向用户推荐结果。实验结果表明,该方法能够向用户推荐符合其兴趣的个性化需求信息,且准确率高于96%,证明了该推荐算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号