首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 281 毫秒
1.
基于句子相似度的文本主题句提取算法研究   总被引:1,自引:0,他引:1  
文本主题提取是文本挖掘领域的重要研究内容,解决文本信息泛滥的重要手段.为了解决现有文本主题句提取中一些局部主题容易被忽略的问题,本文提出一种"先分割,再提取"的思想.首先将文本表示为句子的线性序列,句子表示为词的线性序列,并对每个句子都预处理为含有实词的词汇链,然后基于知网(Hownet)计算相邻句子相似度.基于句子相似度,采用文本分割技术将文本分为多个关于子主题的句子包,通过句子关系图对这些句子包进行主题句提取.最后选用不同的语料库,设计进行了可接受性测试,实验结果验证该算法是可行、有效地.  相似文献   

2.
提出一种基于句子相似度的信息抽取方法。采用句子主题相似度计算, 对测试语料进行小句主题识别;同时结合句子主题在整个文章中的概率分布特点,提高识别的准确性。以网络上个人信息资源为语料,在该系统上进行测试, 取得较好效果。  相似文献   

3.
基于图挖掘的文本主题识别方法研究综述   总被引:1,自引:1,他引:0  
本文通过文献调研分析,将基于图挖掘的文本主题识别方法总结为中心度方法、紧密关联子图查找和图聚类三种,后两者又细分为基于clique子团或类clique子团、基于图拓扑结构或结点属性聚类的方法。中心度方法通过对比文本网络中术语结点的重要度来实现文本主题的识别,紧密关联子图查找和图聚类方法则是根据文本图中术语结点和边的属性相似度来识别文本核心主题。基于语言文本网络自身特性,如何构建复杂文本关系图来同时揭示术语间的句法、共现和语义关系,如何基于术语关联和图拓扑结构识别其中的紧密关联子团,基于何种标准将紧密关联子团聚类以揭示文本核心主题,都是未来需要进一步深入研究的问题。表1。  相似文献   

4.
林杰  苗润生 《情报学报》2020,39(1):68-80
专业社交媒体中主题图谱的内容包括论坛中的主题及主题之间的关系,其具有挖掘专业产品创新方向、构建专业知识索引等重要应用价值。本文基于深度学习技术与文本挖掘技术,提出了专业社交媒体中的主题图谱构建方法。首先,使用专业社交媒体中的文本训练Skip-Gram模型,利用该模型的隐藏层权重与模型输出的预测结果,分别获取词语间的语义相似度与上下文关联度。其次,基于该语义相似度与上下文关联度,对已有领域种子本体词汇进行扩充,将语义相似或上下文相邻近的词汇纳入本体词汇,为主题抽取提供高质量的领域词汇。然后,基于扩充的专业本体词汇,使用结合本体词汇的LDA主题模型从专业社交媒体文本中抽取主题与主题词。最后,利用语义相似度与上下文关联度,定义关联度权重,通过图模型与谱聚类,获取主题间与主题词的关联关系与层次结构。本文使用汽车论坛语料进行主题图谱生成实验。实验结果表明,本文方法获取的主题词纯净度相比单独使用LDA模型提升了20.2%,且能够清晰合理地展现主题之间的关系。  相似文献   

5.
基于句子的文本表示及中文文本分类研究   总被引:1,自引:0,他引:1  
文本挖掘技术是信息资源管理的一项关键技术.向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息.为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性.实验证明,基于句子包的KNN算法的平均精度(92.12%)和召回率(92.01%)是比较理想的.  相似文献   

6.
针对目前网络上的标题党新闻,提出一种标题党新闻自动识别的算法。通过分析新闻网页构成的特点,抽取出新闻标题和新闻正文;以句子关系矩阵为基础,提出一种以语句为单位的主题句抽取算法;根据句子相似度计算结果来进行判断。实验表明,本方法的识别精度可达到80%,是一种有效的方法。  相似文献   

7.
自然语言语义分析研究进展   总被引:5,自引:0,他引:5  
按照自然语言的构成层次——词语、句子和篇章,分析各层次语义分析的内涵、现有的研究策略、理论依据及存在的主要方法,并对现存的两类主要研究策略进行对比分析.认为词语语义分析是指确定词语意义,衡量两个词之间的语义相似度或相关度;句子语义分析研究包含句义分析和句义相似度分析两方面;文本语义分析就是识别文本的意义、主题、类别等语义信息的过程.当前的自然语言语义分析主要存在两种主要的研究策略:基于知识或语义学规则的语义分析和基于统计学的语义分析.基于统计与规则相融合的语义分析方法是未来自然语言语义分析的主流方法,本体语义学是自然语言语义分析的重要基础.  相似文献   

8.
在对概念语义相似度方法调研的基础上,本文提出基于概念向量的文本语义相似度测度方法,借助MetaMap工具抽取文本中的概念术语,将概念术语通过词表层级结构转化为概念向量,通过计算两文本中概念向量的语义相似度来测度两文本的语义相似度。为验证基于概念向量文本语义相似度方法的准确性,选取TREC-05 genomics track数据进行实验,实验结果表明,本文提出的方法较常用的余弦方法更优,与专家评估方法更接近,在测度文本语义相似度上具有一定的可行性和有效性。  相似文献   

9.
[目的/意义]针对目前医学领域基于主题的语义相似度计算研究较少,尚不足以揭示主题间在语义层面的关系,提出一套用于主题间语义相似度计算的方法,进而从语义角度判断主题间关系,为主题新颖性判断、主题关联研究等提供参考。[方法/过程]以MeSH词表为语义计算的基础,剖析词表结构与现有研究成果,从入口词、语义距离、注释3个维度综合测度主题间的语义相似度,利用PubMed中2011-2014年干细胞领域的文献进行实证研究。[结果/结论]利用通用验证主题词对,验证了本文所提3个测度维度的有效性。通过主题间语义相似度的计算,发现干细胞领域2011-2014年较为新颖的主题为未成年人干细胞研究。后续研究中还需融入基于统计的主题相似度,从而更加全面地揭示主题间的关系,发现语义层面领域的新颖性研究主题。  相似文献   

10.
利用语义角色标注技术对文献进行标注,以句子为最小单位进行文献的语义相似度检测。提取文献中所有词语的上位词,为每篇文献形成句子-词-语义角色-上位词四部图。语义相似的句子对比参照四部图确定,最终计算出两篇文献相似句子的Jaccard系数作为两篇文献的语义相似度。实验结果表明,所识别出的语义相似度较字粒度Jaccard系数法、词粒度Jaccard系数法、Winnowing Jaccard系数法等高出13%,然而受语料库限制,本方法还有很大的提升空间。  相似文献   

11.
为提高引文网络社区划分的准确性,以文档之间的语义关系以及引文之间的引用关系为基础,结合词汇在文档中的位置关系等信息,构建基于词汇语义加权的引文网络。通过GloVe模型对词汇向量化以充分利用词汇语义信息,结合WMD模型度量文献之间的相似度,把文档相似度的计算转变为在约束条件下求线性规划最优解的问题,结合文本的内容及结构特征对网络中的边进行赋权,以Louvain社区发现算法对加权后的引文网络进行社区划分,并对划分后的社区进行分析与检验,实验证明GloVe-WMD模型可提高引文网络社区划分的准确度。  相似文献   

12.
张晗  赵玉虹 《图书情报工作》2016,60(11):135-142
[目的/意义]针对共词分析存在的普遍问题,提出一种基于细粒度语义分析的共词网络构建与分析方法。[方法/过程]借助SemRep实现源文本主题概念及其语义关系的规范化抽取并由此构建语义共词网络,然后以节点的中心度和边的频次为指标对内容特征词进行抽取,利用UMLS语义网络规定的语义搭配模式,通过概念-语义类型-语义类型组的两级映射,对语义述谓项进行类团划分。[结果/结论]通过与常规共词分析方法比较,发现基于细粒度语义关系的共词分析能有效地揭示文本主题内容,利用UMLS语义网络资源能从语义学角度清晰准确地对语义共词网络进行类团划分。  相似文献   

13.
基于句子相似度的文档复制检测算法研究   总被引:3,自引:0,他引:3  
提出一种基于句子相似度的文档复制检测技术,在抓住文档的全局特征的同时又兼顾文档的结构信息,克服以往检测算法两者不可兼顾的缺陷,提高检测精度。最后,给出该算法与其他算法检测结果的比较情况。实验证明,该算法是可行的。  相似文献   

14.
基于谱聚类的虚拟健康社区知识聚合方法研究   总被引:1,自引:0,他引:1  
[目的/意义] 改善虚拟健康社区知识聚合质量,为虚拟健康社区服务提供技术方法支持。[方法/过程] 运用谱聚类方法对虚拟健康社区中的知识进行抽取,利用概念相似度计算得到知识主题相似度矩阵,根据该相似度矩阵进行谱聚类。[结果/结论] 利用好大夫在线健康咨询平台发布的信息作为数据来源进行方法验证。结果表明,当聚类个数为5时,本文提出的方法得分值最高。通过谱聚类的方法充分挖掘虚拟健康社区潜在信息,改善了知识聚合质量,为知识聚合和知识服务提供了一条新途径。  相似文献   

15.
传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。  相似文献   

16.
面向领域中文文本信息处理的术语语义层次获取研究   总被引:1,自引:0,他引:1  
研究国内外现有术语语义层次关联的主要方法,针对如何获取术语语义层次内部结构的关键问题,构建术语语义层次获取流程,采用多重聚类方法获取层次关系,结合综合相似度计算方法提取层次内部的聚类标签,并选取一定的语料进行实验,验证该流程的合理性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号