首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
[目的/意义]针对医学文本的特点,提出一种基于语义图的多文档自动摘要方法,并利用其中的语义信息实现摘要主题的识别。[方法/过程]利用SemRep实现源文档概念及其语义关系的规范化抽取并构建语义图,从概念-关系-社区3个层次对网络图中的关键信息进行抽取并生成摘要,利用概念-语义类型-类型分组三级映射实现对概念的归类,结合语义搭配模式对摘要主题进行划分。[结果/结论]通过对5种疾病数据集进行测试,结果显示该方法能有效识别出文献集中的核心内容,语义图中所富含的语义信息能准确地对摘要进行主题划分。  相似文献   

2.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

3.
[目的/意义] 为解决现有网页文本缺乏起源标注的问题,提出一种借助PROV本体发现相似网页文本起源关系的方法。[方法/过程] 通过聚类算法、自动语义标注和关联数据构建等技术的综合应用,结合PROV-POL溯源模型,检测网页文本实体的演变过程,实现文本级和属性级两级溯源方案。[结果/结论] 实验验证了借助语义网技术和数据溯源模型实现网页文本数据溯源的可行性,但实验过程中聚类算法的召回率有待提高。  相似文献   

4.
[目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。  相似文献   

5.
常娥 《图书情报工作》2012,56(11):89-92
结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。  相似文献   

6.
[目的/意义]传统的文献主题提取方法主要是通过关键词、摘要、全文等提取文献的主题内容,使得主题内容不全面或存在"噪音",而从文献内容语义出发,结合引用内容提取文献的主题,能够更加准确地提取出多文档的主题内容。[方法/过程]提出一种面向多文档的基于语义和引用加权的科技文献主题提取算法,利用文献的引用内容和关键词构建Labeled-LDA主题模型,形成文档-主题概率向量,再根据K-means聚类方法聚类文档,提取每类文档集的主题内容。[结果/结论]以PubMed生物医学数据库中的数据作为实验数据,测试该方法的可靠性,结果证明该方法能够准确、全面地提取出多文档的主题内容。  相似文献   

7.
文本情感摘要技术的目的是以简洁的形式准确表达文章的核心情感内容。为解决不同的文档结构及内容特征等问题对摘要结果的影响,提出了一种基于主题的SE-TextRank 情感摘要方法。通过LDA 模型自动获取收敛后的文本主题,利用余弦距离算法进行主题句子分组,使用传统多特征融合以及SE-TextRank 情感摘要算法对组内中心句抽取,最终获取目的摘要。实验表明,采用此方法能够更为高效的获取新闻文本摘要结果。  相似文献   

8.
[目的/意义]在海量网络新闻和微博等新媒体文本中自动识别网络热点话题并抽取有意义词串来描述热点事件,对自动识别和描述网络舆情具有重要的研究意义。[方法/过程]在现有热点描述词抽取方法中,利用关联规则或多元词组合方法在抽取过程中存在噪音词较多和特征词语义被放大或转移等问题。本文提出一种基于复合词生成的描述词抽取方法,在所提取的语义更为精确的描述词集合上使用一趟聚类算法对新闻文本进行聚类,自动识别网络热点话题并对热点话题进行排名。[结果/结论]对腾讯新闻事件文本数据集所做的实验结果表明,本文所提出的方法较传统的词特征抽取方法在聚类结果上具有更好的话题簇识别能力和簇描述能力。  相似文献   

9.
自动文本摘要中一个关键的步骤是确定文章的主旨并将反映文章主旨的句子提取出来.在讨论分析k-means, k-medoids等聚类算法的基础上,根据对文本摘要的实际要求以及文档自身的特点,提出一种基于聚类算法的主旨句提取方法.实验结果表明,在提高聚类准确性的基础上,新方法较其他聚类算法能够更加有效地避免遗漏主题的问题,能较全方位地反映全文的主旨,提取出的摘要既覆盖全面又突出重点.  相似文献   

10.
运用图示法自动提取中文专利文本的语义信息   总被引:1,自引:0,他引:1  
姜春涛 《图书情报工作》2015,59(21):115-122
[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程] 设计两种运用图结构的模型:①基于关键词的文本图模型;②基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘, 并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。  相似文献   

11.
[目的/意义] 由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法/过程] 提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果/结论] 通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。  相似文献   

12.
[目的/意义] 提出一种融合评论主题识别与技术属性多维度分析的技术机会发现方法,从技术需求驱动视角识别技术机会,为企业前瞻布局研发方向与进行科研管理规划提供决策建议支持。[方法/过程] 以产品在线评论为研究数据源,首先,利用LDA主题模型识别出评论技术主题,提出技术评论主题强度和主题新颖度两个指标,筛选出新兴重点技术评论主题。然后,从学术论文、技术专利中人工选取技术属性词,通过TF-IDF值计算得到评论高频词,结合专家知识进一步筛选出技术特征词,构建产品技术属性词-技术特征词表。通过相关性计算分别得到与评论相关和与新兴重点技术评论主题相关的技术属性。最后,提出一种产品重要技术属性识别指标模型并设计一种多维度分析方法,分析产品重要技术属性的特征情况,最终识别出蕴含在评论文本中的新兴技术机会。[结果/结论] 实验结果表明该方法能够有效地识别技术机会,为企业产品技术研发管理提供参考。  相似文献   

13.
针对网页文本结构信息少、噪声大的特点,将句子看作点,将句子间的相似性看作边,用句子关系图描述文本中句子间的关系。抽取文本主题句的任务转化为搜索图中边最多的点。利用语义词典,将句子相似度定义为句子语义相似度,解决短文本词频相似度低的问题。选用互联网公开语料进行测试,抽取的主题句达到平均80.6%的可接受性。  相似文献   

14.
[目的/意义] 准确地计算微博相似度可以提高微博主题挖掘效率,对舆情治理、保障信息安全具有实践意义。针对微博文本语义稀疏、高维的问题,提出一种融入微博非文本特征的超边相似度算法。[方法/过程] 分析微博舆情发生机制,利用超网络模型表示微博舆情主题形成过程,通过计算各层子网相似度及各层子网对主题形成的贡献度构建超边相似度算法。[结果/结论] 研究发现,论文所提出的相似度方法有助于提升微博舆情信息的主题聚类效果,特别是对于文字性表述相似程度高的微博信息,具有明显的主题区分性。  相似文献   

15.
[目的/意义]以用户情感为线索的图像检索已成为机器学习研究的热点,但图像情感特征标注的语料数据多来源于对图像低层特征的抽取,从而导致图像检索过程单一化和程式化。本文提出了一种基于深度学习的图像情感特征抽取的算法,将图像底层特征融合到图像的高层情感语义当中,为实现图像的情感语义检索提供了参考。[方法/过程]利用改进的卷积网络模型,将数据集图像的颜色、纹理作为输入,经多层运算自动提取图像的情感信息,并通过反向传播算法计算出改进后模型的情感检索准确率,构造出准确率较高且过拟合程度低的图像情感特征提取模型。[结果/结论]应用改进的卷积神经网络模型,实现了对图像情感特征的抽取,相较于原模型提升了10%的检索准确率。  相似文献   

16.
[目的/意义]分析技术主题演化过程可以梳理技术发展脉络,对于发展创新、预测技术发展趋势具有重要意义,但是从语义角度分析技术主题演化轨迹的研究较少。因此,从语义的角度出发,分析技术主题演化过程。[方法/过程]提出基于非负矩阵分解的改进的动态非负矩阵分解模型对专利文本进行动态主题建模,并利用TextRank算法抽取名词短语进行标注,增强所抽取技术主题的可解释性。在此基础上,利用词向量的方式计算技术演化轨迹,并进行可视化展示。[结果/结论]对2002年、2005年、2008年、2011年和2014年的五方专利进行实证分析,识别出65个技术主题及其演化轨迹,表明方法的可行性。  相似文献   

17.
[目的/意义]为更好地提升科技文献的语义丰富化效果,对国内外科技文献语篇元素标注模型、技术和方法进行调研总结,为文本挖掘、科技论文知识抽取、语义分析系统研究者提供借鉴。[方法/过程]利用学术网站搜索和相关数据库搜索引擎,对涉及科技论文标注、语篇元素、知识抽取、句子识别和自动文章分类等参考文献以及研究报告进行深入阅读和调研,对语篇元素自动标注模型以及相关工作进展进行研究总结。[结果/结论]科技文献语篇元素标注具有非常重要的实际应用价值,构建标注模型需充分考虑构建思想、标注领域和标注粒度以及标注技术手段等方面。  相似文献   

18.
当前文本主题获取方法大多依靠单一关联分析,不能全面分析可获取信息,难以准确获取科技发展主题。科技文献的主题词、作者和引文之间蕴含了以研究主题内容为纽带的语义关联关系,主题词共现关系、引文关系和合著关系分别从不同的角度展现了主题关联关系。因此,本文根据主题词之间语义关系距离的远近,将主题识别中主题词关联分为基础关系、强化关系和新增关系,在此基础上提出面向主题识别的多元关系抽取及关系融合方法;并以基因工程疫苗的研发与制备领域为例进行领域实证分析,利用PathSelClus算法实现基于多元关系融合的主题聚类,通过对比实验证明多元关系融合可以有效提高实证领域的文本主题聚类效果,而未来多关系融合主题识别则是需要重点关注的问题。图4。表6。参考文献19。  相似文献   

19.
[目的/意义]以汽车论坛例,提出一种针对专业社交媒体文本的主题知识元抽取方法。[方法/过程]首先,通过LDA模型提取出汽车论坛中文本的主题,并进行去重,形成主题列表;其次,基于融合主题特征的深度学习模型T-LSTM模型构建适于汽车论坛本文的情感分析模型;然后,通过计算各词汇在图模型TextRank中的重要性与各词汇的Word2Vec主题相似度,抽取情感关键词与关键句,用于对文本主题与情感倾向的解释与补充;最后,对上述方法进行集成,输出结构化的主题知识元。[结果/结论]实验结果中,抽取得到的主题知识元合格率达到69.1%,表明本文提出的主题知识元抽取方法,能够围绕知识主题较为准确地抽取知识元,实现知识的结构化转换。  相似文献   

20.
从题名抽取关键词,把题名作为基于本体自动分类的文本主体,实现海量科技论文高效、精准地分类,已经成为图书馆事业发展的重要课题。本文利用文本内部词汇的语义关联特性,在高频词和隐含主题两个不同粒度层面,构建了基于BTM模型的题名信息自动分类方法:首先从细粒度层面进行词频统计,提取领域高频词;随后从粗粒度层面进行BTM模型分析,得到主题关键词;之后,将两者去重合并获得领域核心词集;最后,利用SVM算法进行文本分类。该方法有效地实现了知识的快速聚类和关联自动分类,为用户提供了满意度更高的知识发现及相关扩展服务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号