首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于主要主题词加权的共词聚类分析法效果研究   总被引:4,自引:1,他引:3  
共词聚类分析法在词对共现频率的基础上,采用聚类的算法把词(通常是主题词)聚集成类,从而揭露隐含在文献群中知识.词对共现频率结果的准确性、科学性是共词聚类分析成功的关键.本文对共词聚类分法中的词对共现频率进行深入的分析,认为在文献的标引中存在主要主题词与次要主题词的差别,在词对共现频率计算时应对主要主题词进行加权计算,从而突出主要主题词在聚类过程中的主导地位.通过实例的对比分析,说明这种加权对共词聚类分析法的改进是有效的,也是有必要的.  相似文献   

2.
共词聚类分析法中的主要问题与对策   总被引:3,自引:0,他引:3  
共词聚类分析法通过聚类运算的方式对学科主题词进行划分,从而实现对学科结构的分析研究.聚类运算的结果,通常能把共现频次高的词聚在一起,而学科内主题词的分布与词的共现关系并不完全正向相关,因此,聚类运算的原理不完全符合学科研究点主题词分布的方式,是共词聚类分析法中的主要问题,并由此造成共词聚类分析存在许多不足的地方,主要表现在:聚类不稳定、聚类不完整、成员划分不合理以及容易造成没有意义类团的出现.问题的对策是:改进聚类算法、改变聚类策略、类团的弹性划分以及对结果的创新分析能有效弥补聚类算法的不足.  相似文献   

3.
[目的/意义]分析学科主题演化趋势,对科研人员研究学科知识、决策层规划学科布局都有重要意义.相比于词频分析法和共引分析法,共词分析法的优势是能深入文献内部,从微观角度揭示学科主题演化规律.分析中国国内基于共词分析法的学科主题演化研究现状,以期为相关研究人员提供参考和借鉴.[方法/过程]采用人工判读法提炼出基于共词分析法的学科主题演化研究分析流程的5个步骤,并对每个步骤中研究人员使用的策略、分析手段和工具进行归纳总结.[结果/结论]数据集的来源数据库主要有综合类、专门类和引文类等3种,检索策略有基于词、基于期刊和复合检索策略等3种;共词分析对象来源主要为作者关键词,关键词选取主要基于关键词词频、关键词共现词频和前两者相结合3个角度;构建共词矩阵时使用得最多的归一化系数为ochiai系数;最常用的主题演化分析手段为聚类分析和社会网络分析图谱;使用得最频繁的工具为SPSS软件.  相似文献   

4.
[目的/意义]从主题时序视角出发,以中国图书馆学会年会主题和年会论文集题录为研究样本,进行相关主题词的分布和演化分析,梳理中国图书馆界近十年来理论与实践发展脉络。[方法/过程]获取2007-2017年间中国图书馆学会年会的相关主题词,从中选择高频词,利用Excel构造主题词共词矩阵,利用Ucinet和SPSS工具进行主题词静态分布分析,结合"流行研究热点权值(PRHW)"指标对主题词进行动态演化分析。通过词频、中心性、聚类对比分析相关主题词的静态分布特征;通过词频时序和共词时序分析主题词的动态演化特征,并采用PRHW指标进行识别和演绎;从7个类团中抽取两个典型主题词构筑全主题词的共词时序网络。[结果/结论]相关主题词的静态分布特征表现为:年会主题词和论文集主题词高频词一致性较好,论文主题词更微观具体;二者都不具备显著的中心性;聚类结果根据相近原则归并出7个具体类团。主题词的动态演化特征表现为:分长期关注、早期关注、近来关注上升和近来关注下降四类,相关主题的微观演化特征得到了精细化呈现。  相似文献   

5.
本研究对MEDLINE中生物体类文献中高频主要主题词进行共词聚类分析,获取主题词之间的关联规则,利用UMLS语义关系进行结构化表达.从MEDLINE中选取<中华医学杂志>上的生物体类文献作为测试集,由专家人工抽取关系,与共词聚类得到的关联规则进行比较.利用共词聚类分析对生物体类主题词关系的挖掘及评价分析,为文本知识发现提供了一种新的尝试.  相似文献   

6.
孙海生 《图书情报工作》2016,60(10):123-129
[目的/意义] 传统共词分析的聚类算法存在以下不足:①关键词只能被划归一个聚类;②聚类过程对分类数目的确定缺乏严格判断标准。针对以上问题,采用复杂网络理论进行改进研究。[方法/过程] 采用连边社团检测算法对关键词进行聚类,以科学计量学为例进行实证研究。[结果/结论] 分析结果表明:算法对关键词的聚类结果有较好的改进效果,能够把核心度高的关键词同时划分到不同的研究主题之中,克服传统聚类算法的不足,而且划分密度可为聚类数目的确定提供客观判断依据。  相似文献   

7.
分年度选取了图书情报学高被引论文作为研究样本。指出了高频关键词共词分析的不足,提出了一个兼顾中低频关键词的选词方案。方案中提出删除通用高频关键词的设想,解决通用高频关键词的复分难题;把共现关系较强的中低频关键词纳入共词分析之中,提高关键词的代表性。通过多维尺度图和聚类树状图的对比分析,发现这种共词分析方法相对传统的高频关键词共词分析关键词聚合度更高,组团间关系更明晰,更能揭示研究领域的主题结构,是一种改进共词分析效果的有效方法。  相似文献   

8.
应用引文共引聚类-内容词分析法对学科发展的研究   总被引:6,自引:1,他引:6  
侯跃芳  崔雷  吴迪 《情报学报》2007,(2):309-314
将引文共引聚类与内容词分析法相结合揭示专题发展,通过引文共引聚类描述妊娠糖尿病专题研究的发展历史,通过高频引文的重要来源文献的内容词分析描述该专题研究现状,同时计算来源文献类内相似度、关联度及类间差异度,验证引文共引聚类的效果.  相似文献   

9.
基于共词分析法的学科主题演化研究方法的构建   总被引:1,自引:0,他引:1  
唐果媛 《图书情报工作》2017,61(23):100-107
[目的/意义]相比于以单纯的关键词统计排序为主的词频分析法,和以文献作为分析对象、需要庞大的引文索引作为基础的共引分析法,共词分析法具有一定的优势。因此,基于共词分析法来研究学科主题演化规律。[方法/过程]构建基于共词分析法的学科主题演化研究方法,包括4个模块,分别是:数据准备、演化阶段划分、主题识别和主题演化分析。[结果/结论]在主题识别阶段改进了词频g指数来选取共词分析的对象;在主题演化分析模块,提出从静态和动态两个角度来分析学科主题的演化情况,构建三维战略坐标来进行静态分析,并构建学科主题演化现象识别模型来进行动态分析。  相似文献   

10.
生物信息学的共词分析研究   总被引:32,自引:2,他引:30  
张晗  崔雷 《情报学报》2003,22(5):613-617
本文应用共词分析的方法对生物信息学的主题词进行聚类 ,得到其研究的热点内容 ,然后利用战略坐标进一步定量地分析了各热点的发展阶段。  相似文献   

11.
汪曼 《情报工程》2016,2(5):075-085
本文以CNKI期刊全文数据库中1985-2016年,主题词为社会网络分析的四千多篇文献为研究对象,首先通过文献计量分析从文献年代分布、期刊分布和学科分布三个角度探讨了国内社会网络分析的主要应用情况。之后将研究的焦点聚集在社会网络分析应用最为广泛的图书情报与数字图书馆学科,通过CiteSpace构建了核心作者合作网络和关键词共现网络,并通过作者合作团体分析和关键词聚类及节点中心性分析进一步探讨了社会网络分析在图书情报与数字图书馆学科的应用情况。  相似文献   

12.
[目的/意义] 由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法/过程] 提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果/结论] 通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。  相似文献   

13.
急性白血病相关基因的文本挖掘分析   总被引:2,自引:0,他引:2  
闫雷  崔雷 《情报学报》2008,27(2):169-174
从PubMed检索1966年到2005年9月6日间白血病与基因关系的相关文献3 529篇.经编程处理生成主题词词篇矩阵并进行聚类.通过聚类树图可将所提取的主题词/副主题词分成13类,经对比原始文献进行验证,全部29种基因中只与ALL相关的有3种, 占10.34%;只与AML相关的有8种,占27.59%.特异的可用于鉴别ALL和AML的基因有11种,占37.93%.通过主题词的共现关系进行聚类可以基本实现发现基因与疾病之间的联系,但该方法所获得的相关基因较少,不利于对疾病与基因关系的全面了解.  相似文献   

14.
[目的/意义] 基于高维矩阵稀疏降维的思想,提出一种利用惩罚性矩阵分解(Penalized Matrix Decomposition,PMD)实现共词分析的新方法。[方法/过程] 以"学科服务"为研究主题,根据PMD算法原理,在Matlab环境下分别实现特征词的提取、特征词的软聚类以及聚类效果的可视化。[结果/结论] 与传统的共词分析方法对比,PMD算法在共词分析中具有独特的优势:提取的特征词比较全面,聚类数目便于确定,聚类结果易于理解。  相似文献   

15.
在分析现有文献计量软件的优缺点及利用文献计量方法进行科学研究的目的与工作流程的基础上,建立多种文献数据库题录字典,有效进行关键词的合并和修正,集成文献计量中统计、共词和聚类过程,设计和实现一种可视化的共词聚类分析系统。  相似文献   

16.
本文以内分泌与代谢学科领域中六种核心期刊在2003 ~2007 年发表论文的全部主要主题词的频次,生成高频主题词的共现矩阵,利用SPSS 做聚类分析得到该学科当前研究热点.在共词聚类的基础上,绘制出2003 ~ 2007 年研究热点的基本框架---战略坐标图,揭示了该研究主题的内外部联系并对发展趋势进行分析.此外,通过社会网络分析揭示了该研究领域的核心主题,并应用Netdraw 对共词矩阵进行可视化,展现每个高频词之间的共现关系.本文将科学计量学和可视化技术结合应用于学科分析,目的是直观地揭示共词网络中隐藏的信息或知识,为科研人员对学科发展方向的决策提供参考.  相似文献   

17.
根据CNKI中国优秀硕士学位论文全文数据库中2007-2011年收录的情报学优秀硕士学位论文,分析硕士论文中的高频关键词,并利用SPSS软件对得到的高频关键词进行共词聚类分析,通过分析共词聚类结果来研究各高频关键词之间的关系,以确定情报学近几年的研究热点,并在此基础上对我国情报学未来几年的研究方向做出合理的预测。  相似文献   

18.
唐果媛  张薇 《图书情报工作》2014,58(22):138-145
采用人工判读法、文献计量法和对比分析法,从定性和定量两个角度对共词分析法在国际上和中国国内的研究现状进行分析.通过人工判读法,将共词分析法的研究分为理论研究和应用研究,其中理论研究分为5类,应用研究分为4个层次;通过文献计量方法,对共词分析法在国际上和中国国内的总体研究发展趋势、文献类型、引用情况和应用领域进行分析;通过对比分析法,比较分析国际上和中国国内共词分析法的理论研究和应用研究之发展趋势的差异、在各类型共词分析法研究中的活跃程度和影响力的差异,以及共词分析法具体应用领域的差异.  相似文献   

19.
随着互联网规模的急剧扩张,提升信息检索的效用变得相当困难.本文首先通过特定算法提取每篇文档的关键词,然后运用统计方法计量不同文档的共现关键词并形成相应的共现关键词标签矩阵,最后利用层次聚类算法对共现关键词标签进行聚类并形成相应的层次标签树来构造文档聚类束.该方法可以对源搜索引擎返回的结果进行有效的分类,使用户在更高主题层次上查看检索词的相关信息,准确地找到感兴趣的信息.通过与Lingo算法的比较,显示本文算法所得的标签更具可读性和概括性,同时F-measure评价指标也表明本算法在文本聚类的质量上有了一定的提升.  相似文献   

20.
现有的主题标引方法一般只能抽取文本中出现的词汇,无法从几万或数十万主题词中选择语义关联强且未出现的词汇;基于机器学习的多标签分类算法则需要每一个标签下有训练数据,限制了它们在主题标引上的应用。面向大规模主题词在海量文献上的标引需求,提出一个基于分布式词向量的混合型自动标引方法,利用大规模语料训练的词向量生成同维度的主题词表示向量和文本表示向量,实现主题词与文本语义相似度的计算。基于大规模语料构建主题词与普通词的映射表,使文本向量只和少量的语义强相关主题词向量比较,大大减少了计算量,提高了标引效率。开发的自动标引工具对近亿篇文献进行了主题标引,达到了较高的速度。与结巴关键词的实验对比结果显示,本文方法抽取的主题词与作者关键词重合度较低,且在去除结巴关键词中的非主题词后,取得了比结巴关键词更高的标引准确率;与人工标引的实验对比结果显示,随着人工标引词数量的增加,本文方法的效果、结果与人工标引结果的一致性在不断增加。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号