首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
林杰  苗润生 《情报学报》2020,39(1):68-80
专业社交媒体中主题图谱的内容包括论坛中的主题及主题之间的关系,其具有挖掘专业产品创新方向、构建专业知识索引等重要应用价值。本文基于深度学习技术与文本挖掘技术,提出了专业社交媒体中的主题图谱构建方法。首先,使用专业社交媒体中的文本训练Skip-Gram模型,利用该模型的隐藏层权重与模型输出的预测结果,分别获取词语间的语义相似度与上下文关联度。其次,基于该语义相似度与上下文关联度,对已有领域种子本体词汇进行扩充,将语义相似或上下文相邻近的词汇纳入本体词汇,为主题抽取提供高质量的领域词汇。然后,基于扩充的专业本体词汇,使用结合本体词汇的LDA主题模型从专业社交媒体文本中抽取主题与主题词。最后,利用语义相似度与上下文关联度,定义关联度权重,通过图模型与谱聚类,获取主题间与主题词的关联关系与层次结构。本文使用汽车论坛语料进行主题图谱生成实验。实验结果表明,本文方法获取的主题词纯净度相比单独使用LDA模型提升了20.2%,且能够清晰合理地展现主题之间的关系。  相似文献   

2.
黎楠  杜永萍  何明 《情报工程》2015,1(3):090-097
LDA 主题模型可用于识别大规模文档集中潜藏的主题信息,本文提出了一种基于LDA 建立发明人兴趣主题模型的方法,合并每位发明人的专利数据,专利信息基于发明人进行划分,将标准的文档- 主题-词的三层LDA 模型变为专利数据中的发明人- 主题- 词的发明人兴趣模型,实现发明人的主题发现,并利用该模型中主题分布之间的相似性进行发明人的个性化推荐。在采集真实专利数据集上的实验结果表明该方法相比传统的向量空间模型方法和隐马尔科夫模型方法具有更高的准确率,推荐效果更优。  相似文献   

3.
当前文本主题获取方法大多依靠单一关联分析,不能全面分析可获取信息,难以准确获取科技发展主题。科技文献的主题词、作者和引文之间蕴含了以研究主题内容为纽带的语义关联关系,主题词共现关系、引文关系和合著关系分别从不同的角度展现了主题关联关系。因此,本文根据主题词之间语义关系距离的远近,将主题识别中主题词关联分为基础关系、强化关系和新增关系,在此基础上提出面向主题识别的多元关系抽取及关系融合方法;并以基因工程疫苗的研发与制备领域为例进行领域实证分析,利用PathSelClus算法实现基于多元关系融合的主题聚类,通过对比实验证明多元关系融合可以有效提高实证领域的文本主题聚类效果,而未来多关系融合主题识别则是需要重点关注的问题。图4。表6。参考文献19。  相似文献   

4.
基于图挖掘的文本主题识别方法研究综述   总被引:1,自引:1,他引:0  
本文通过文献调研分析,将基于图挖掘的文本主题识别方法总结为中心度方法、紧密关联子图查找和图聚类三种,后两者又细分为基于clique子团或类clique子团、基于图拓扑结构或结点属性聚类的方法。中心度方法通过对比文本网络中术语结点的重要度来实现文本主题的识别,紧密关联子图查找和图聚类方法则是根据文本图中术语结点和边的属性相似度来识别文本核心主题。基于语言文本网络自身特性,如何构建复杂文本关系图来同时揭示术语间的句法、共现和语义关系,如何基于术语关联和图拓扑结构识别其中的紧密关联子团,基于何种标准将紧密关联子团聚类以揭示文本核心主题,都是未来需要进一步深入研究的问题。表1。  相似文献   

5.
文章通过对我国信息资源管理学科及其邻近学科新兴主题的识别研究,为我国信息资源管理学科领域学者提供研究方向,并为信息资源管理学科与邻近学科开展合作研究提供思路,助力信息资源管理学科守正创新、挖掘学科内在发展机制、支撑科技战略决策和前瞻学科应用价值。首先以CJFD中“图书情报与数字图书馆”类文献作为信息资源管理学科研究对象,将与该学科同属于一级类目“信息科技”下的其他9个二级类目作为信息资源管理邻近学科纳入研究对象;检索CJFD中这10个学科自2012年至今的高影响力文献,并提取关键词。然后选用AP算法对关键词进行主题聚类,利用灰预测模型自建新兴主题探测指标,识别信息资源管理学科新兴主题;自建主题友好度指标,识别信息资源管理邻近学科友好型新兴主题。最终模型识别并验证得出5个信息资源管理学科新兴主题:在线健康社区、信息资源管理学科建设、公共文化服务、学术影响力、数字记忆;在此基础上得到邻近学科中与信息资源管理学科有高友好度的5个邻近学科友好型新兴主题:机器学习、数字治理、融媒体、学术期刊与新媒体、数智赋能。  相似文献   

6.
文本可视化及其主要技术方法研究*   总被引:1,自引:0,他引:1  
 文本可视化是通过对文本资源的分析,发现特定信息,并利用计算机技术将其以图形化方式呈现来的一种方法。通过分析文本可视化典型系统,分析现今的文本可视化的特点。并从基于词汇、基于篇章、基于时间序列、基于主题领域4种不同的文本可视化方式入手来分析其的主要技术方法。最后探讨文本可视化如何在信息环境下发挥作用。  相似文献   

7.
适用于隐含主题抽取的K最近邻关键词自动抽取   总被引:1,自引:0,他引:1  
众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现.本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法.现有的关键词抽取技术仅仅是对正文词汇的抽取,不能抽取隐含主题.隐含主题的抽取是关键词自动抽取技术的难点,但是该方法可以有效抽取隐含主题.该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K最近邻方法构建新文献的关键词候选集;最后,根据关键词本身的特点对候选关键词做了有效的后处理.实验表明,该方法不仅可以提高关键词抽取的准确率和召回率,还可以有效抽取文章的隐含主题.  相似文献   

8.
在多角度主题结构获取方法研究中,首先通过实验方法验证变异分析方法和共词分析方法所获得的主题结构具有较大的差异性,二者均是现有主题结构的一个侧面反映。根据变异分析和共词分析的特点,论文尝试通过关系融合、过程融合以及结果融合三种不同的融合方式来进行多角度主题结构获取,在关系融合分析方法中,尝试了线性函数、Max函数和共变异三种不同的函数关系。对所有融合分析方法的结果通过主题类层面、词间关系层面以及主题类类内关系层面来验证该方法是否适合多角度主题结构获取并通过对比方法研究不同适合主题结构获取方法之间的等价性问题。最后给出本文研究的不足和后续研究的目标。  相似文献   

9.
将本体论和语义计算的相关技术引入到网络群体性事件的主题发现研究中,并通过构建食品安全领域本体进行实证研究。实验结果表明,该方法能够有效地获取主题信息,有助于实现网络群体性事件的主题发现。  相似文献   

10.
提出一种基于词汇链的关键词抽取方法。该方法通过构造词汇链来描述技术路线图的技术领域主题内容,并将词汇链作为表征技术路线图中领域关键词、核心技术关键词及其语义关系的词汇序列。实验表明该方法抽取的关键词能够更全面地揭示技术路线图的技术领域主题内容,其抽词结果的准确率和召回率较TF-IDF方法有明显的提高。  相似文献   

11.
俞琰  赵乃瑄 《图书情报工作》2018,62(21):118-126
[目的/意义]针对专利主题分析中以词为基本单位会造成专利中的多词术语难以被识别、主题模型结果不佳的问题,提出融入术语的专利主题发现模型,以解决该问题。[方法/过程]模型首先引入类别熵,有效地识别出专利文献中的术语;然后利用泛化波利亚瓮模型增加语义相似术语分配到同一主题的概率,以缓解术语作为基本主题模型分析单位所带来的数据稀疏性问题。[结果/结论]实验结果表明本文提出的模型包含的术语信息提高了主题生成的质量,使主题表示具有更强的可读性和主题判别性。  相似文献   

12.
[目的/意义]从知识主题的角度切入,建立全面的课程知识体系,解决现有课程体系设计和教学中的课程间知识点重复及"知识孤岛"问题,从而有效开展专业知识服务。[方法/过程]以临床医学专业主干课程为研究对象,基于医学主题词表、电子教材、电子教案等医学教育数据,通过LDA模型挖掘课程中的知识主题,利用关联分析揭示课程间、知识主题间及课程与知识主题间的细粒度关联,从而构建临床医学课程知识主题图谱。[结果/结论]研究从专业课程体系与知识主题视角构建出领域知识图谱,有助于教学管理人员及师生掌握专业知识体系,开展知识导向型教学活动,推进医学领域知识组织与服务及智慧医学教育发展。  相似文献   

13.
��[Purpose/significance] This paper proposes the identification of the core research topics and their evolution path visualization methods, in order to provide reference for the field subject evolution analysis research, which has certain significance for revealing the evolution characteristics and development laws of the core topics.[Method/process] Using the LDA model for topic recognition and combining multi-dimensional scaling analysis and visualization techniques to map LDA topic recognition results to two-dimensional space. The topic similarity algorithm was used to detect the association between adjacent time topics, a new visual display method was proposed. We constructed cross-evolution paths of different types of research topics to reveal the dynamic changes of core topics and secondary topics in the evolution process.[Result/conclusion] Taking the medical health information field in China as an example, the research results show that the core research topics in the field of medical and health information in China mainly include electronic health records and Internet medical treatment. Among them, core themes such as health management and smart medical treatment show a good development trend.  相似文献   

14.
[目的/意义] 学科主题演化研究有助于掌握学科发展现状、研究热点、研究前沿和发展趋势等情况,是进行科技创新的基础,是面向科技创新的重要研究方向。[方法/过程] 提出一种语义分类的学科主题演化分析方法:将关键词分为研究问题、研究方法和研究技术3类,构建不同语义分类的共词网络;然后基于Fast Unfolding社区发现算法识别具有语义特征的社区(主题);利用相似度算法计算相邻子时期主题间的相似度,构建学科主题演化图谱,以分析某学科领域研究问题、研究方法和研究技术的变化,实现深度、细致的学科主题演化分析。[结果/结论] 通过对2012-2015年CNKI数据库收录的我国大数据研究领域相关论文数据的处理分析,证明该方法的准确性和有效性。  相似文献   

15.
[目的/意义]分析技术主题演化过程可以梳理技术发展脉络,对于发展创新、预测技术发展趋势具有重要意义,但是从语义角度分析技术主题演化轨迹的研究较少。因此,从语义的角度出发,分析技术主题演化过程。[方法/过程]提出基于非负矩阵分解的改进的动态非负矩阵分解模型对专利文本进行动态主题建模,并利用TextRank算法抽取名词短语进行标注,增强所抽取技术主题的可解释性。在此基础上,利用词向量的方式计算技术演化轨迹,并进行可视化展示。[结果/结论]对2002年、2005年、2008年、2011年和2014年的五方专利进行实证分析,识别出65个技术主题及其演化轨迹,表明方法的可行性。  相似文献   

16.
[目的/意义] 基于主题关联相似度揭示主题汇聚及变异过程,识别学科交叉主题及交叉模式,归纳学科主题的演化趋势及演化路径模式。[方法/过程] 获取情报学学科科研论文的高频主题词,构造主题词共词矩阵,利用网络社区演化分析工具生成学科主题演化网络图,结合指标数据对学科主题演化过程进行分析。[结果/结论] 总体上看,情报学学科的研究主题虽然在反复地变化,但核心主题一直存在;扩张、收缩和合并是研究主题最普遍的变化态势,分裂现象较少,产生和消亡现象存在;有3条特定社区演化轨迹清晰地贯穿始终,活跃度相对稳定,反映了3类核心研究主题;3类核心研究主题的演化路径呈现出升华吸纳、共融迭新和辐射推进3种演化模式。研究结果显示,基于主题关联学科主题演化路径的多模式识别方法既能从宏观层面呈现学科主题演化形式,也能从微观层面分析学科主题交叉模式,结合二者可揭示学科主题的继承或创新,预测学科交叉主题的发展方向。  相似文献   

17.
[目的/意义]针对目前医学领域基于主题的语义相似度计算研究较少,尚不足以揭示主题间在语义层面的关系,提出一套用于主题间语义相似度计算的方法,进而从语义角度判断主题间关系,为主题新颖性判断、主题关联研究等提供参考。[方法/过程]以MeSH词表为语义计算的基础,剖析词表结构与现有研究成果,从入口词、语义距离、注释3个维度综合测度主题间的语义相似度,利用PubMed中2011-2014年干细胞领域的文献进行实证研究。[结果/结论]利用通用验证主题词对,验证了本文所提3个测度维度的有效性。通过主题间语义相似度的计算,发现干细胞领域2011-2014年较为新颖的主题为未成年人干细胞研究。后续研究中还需融入基于统计的主题相似度,从而更加全面地揭示主题间的关系,发现语义层面领域的新颖性研究主题。  相似文献   

18.
[目的/意义]研究前沿的准确判断是国家宏观层面的战略需求,文献计量学作为一种定量研究方法广泛应用于科学主题探测和研究前沿识别中。[方法/过程]梳理研究前沿主题探测的发展历程和方法模型,引入全域微观模型的概念,详细介绍SciVal模块采用的主题创建方法,包括直接引用文献聚类、关键词主题命名和研究前沿遴选的主题显著性算法,并对SciVal创建的9.6万个主题和遴选出的前1%的研究前沿主题的特征进行实证分析。[结果/结论]全域微观模型可以同时一次识别整个科学领域的所有主题,但不同学科在研究前沿上表现存在差异,不能把主题显著性简单等同为重要性;主题论文数量与主题排名之间存在中度相关性;自动抽取的关键词术语从学科领域层和独特性上命名和描述主题;石墨烯相关前沿主题的演变趋势分析可以用于发现关键节点和新兴主题。  相似文献   

19.
WHO英文网站健康主题语义链接关系社会网络分析   总被引:1,自引:0,他引:1  
选择世界卫生组织(WHO)网站健康信息主题作为研究对象,统计各个健康主题的互链数据,利用文本相似性算法并基于语义的角度,运用社会网络分析方法和Ucinet软件,从中心度、密度、凝聚子群角度分析这些健康主题之间的社会网络关系,最终证实挖掘的健康主题信息与2013年世界卫生报告中阐述的全民健康覆盖目标信息相匹配。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号