首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 500 毫秒
1.
本研究对MEDLINE中生物体类文献中高频主要主题词进行共词聚类分析,获取主题词之间的关联规则,利用UMLS语义关系进行结构化表达.从MEDLINE中选取<中华医学杂志>上的生物体类文献作为测试集,由专家人工抽取关系,与共词聚类得到的关联规则进行比较.利用共词聚类分析对生物体类主题词关系的挖掘及评价分析,为文本知识发现提供了一种新的尝试.  相似文献   

2.
文献数据库中书目信息共现挖掘系统的开发   总被引:9,自引:0,他引:9  
针对权威的生物医学数据库和引文索引数据,介绍一个基于文献数据库中书目信息共现关系进行文本挖掘的系统。该系统具有基本的文献计量学分析功能,并对相应的结果进行可视化表达;对高频主题词、高产作者和高被引论文和高被引作者进行共现分析,据此进行聚类分析和关联分析,获得有关的研究主题聚类和主题词/副主题词关联规则、合著聚类分析、高被引论文同被引聚类分析和高被引作者同被引聚类分析的结果和可视化表达。其中对关联规则的分析可以发现主题词之间的潜在语义规则,其他的文献计量学指标和共现分析结果可以用于科学计量学的分析。  相似文献   

3.
本文研究了科技文献副主题词的自动抽取问题,并对其在分面检索中的应用进行了探索。为实现副主题词的自动标引,本文提出了以标题作为抽取数据源、基于规则进行抽取的实现方法,并以图情领域文献进行了实验。结果显示,基于规则的抽取方法在召回率和准确率方面表现良好,均超过了90%;但仅以标题作为抽取数据源会导致召回率偏低,仅有49.9%的文献能抽取出副主题词。为探索副主题词在分面检索中的应用,本文以图情领域文献为例构建了原型系统,从使用效果来,副主题词作为独立的检索点价值不大,但和其他检索点配合使用则可以更贴切地表达用户需求,作为分面则能在帮助用户进行探索式检索以及结果筛选方面发挥重要作用。本研究的局限性包括仅采用标题作为副主题词抽取数据源,导致召回率不高;在副主题词抽取时未考虑同时抽取相应的主题词等。  相似文献   

4.
利用关联规则算法,对PubMed数据库中的4种抗肿瘤药物主题词和副主题词组配模式进行分析,并以文献和教科书标准,抽取出与这四类药有关的、有效的语义关系搭配模式,从而为文献检索和建立知识库提供依据。  相似文献   

5.
面向非相关文献的知识关联能够促进新知识的产生,为科学研究寻找新的线索提供了一种便捷、有效的辅助手段。本文首先设计了面向非相关文献的知识关联发现系统,该系统以《中国分类主题词表》为主题词受控词表,通过对文献摘要的中文分词处理,提取主题词并标引,提取文档特征矩阵并利用计量分析技术和聚类技术分析文献间特征的相似、相异水平,从词的粒度层面对非相关文献之间的关系进行挖掘,揭示非相关文献的知识关联。其次,基于该系统为用户精确匹配相关的知识库,采用TOP?K算法反馈与用户相关的文献集,为用户提供满意度更高的知识发现及相关扩展服务。图5。参考文献29。  相似文献   

6.
郝丽云  郭启煜 《情报学报》2007,26(5):741-747
非相关文献知识发现是Swanson教授提出的一种情报学方法,用于挖掘隐藏在文献之间的隐秘联系.其知识发现过程包括两部分开放式知识发现过程和闭合式知识发现过程.开发式知识发现过程是形成假设的过程,可表示为A→B→C;闭合式过程是检验假设的过程,可表示为A→B←C.本文以Medline为数据源,以Mesh字段中的主题词为内容分析单元,进行开放式知识发现的实践.文章共分两部分第一部分模拟Swanson的雷诺病和鱼油、偏头痛和镁缺乏的知识发现的例子,分别以雷诺病(raynaud disease)和偏头痛(migraine)为来源主题词(source subject),寻找目标词鱼油和镁缺乏;第二部分是以2型糖尿病(diabetes mellitus,type 2)为来源主题词,进行主题词分析法的医学实践.研究表明,主题词作为内容分析单元在技术上容易实现,是可行的知识挖掘方法.在实践中还需要探索更好的主题词统计量,进行更精确的类别限定,进一步完善该方法在科研领域的应用.  相似文献   

7.
郝丽云  郭启煜 《情报学报》2007,26(6):845-850
非相关文献知识发现是Swanson教授提出的一种情报学方法,用于挖掘隐藏在文献之间的隐秘联系.其知识发现过程包括两部分开放式知识发现过程和闭合式知识发现过程.开发式知识发现过程是形成假设的过程,可表示为A→B→C;闭合式过程是检验假设的过程,可表示为A→B←C.本文以Medline为数据源,以Mesh字段中的主题词为内容分析单元,进行开放式知识发现的实践.文章共分两部分第一部分模拟Swanson的雷诺氏病和鱼油、偏头痛和镁缺乏的知识发现的例子,分别以雷诺病(raynaud disease)和偏头痛(migraine)为来源主题词(source subject),寻找目标词鱼油和镁缺乏;第二部分是以2型糖尿病(diabetes mellitus,type 2)为来源主题词,进行主题词分析法的医学实践.研究表明,主题词作为内容分析单元在技术上容易实现,是可行的知识挖掘方法.在实践中还需要探索更好的主题词统计量,进行更精确的类别限定,进一步完善该方法在科研领域的应用.  相似文献   

8.
用主题词和关键词双重标引文献主题初探   总被引:4,自引:0,他引:4  
提出通过用主题词和关键词双重标引文献主题,并建立关键词与主题词间参照关系的设想,使数据库中文献按主题词规范管理,用户以自然语言检索  相似文献   

9.
现有的主题标引方法一般只能抽取文本中出现的词汇,无法从几万或数十万主题词中选择语义关联强且未出现的词汇;基于机器学习的多标签分类算法则需要每一个标签下有训练数据,限制了它们在主题标引上的应用。面向大规模主题词在海量文献上的标引需求,提出一个基于分布式词向量的混合型自动标引方法,利用大规模语料训练的词向量生成同维度的主题词表示向量和文本表示向量,实现主题词与文本语义相似度的计算。基于大规模语料构建主题词与普通词的映射表,使文本向量只和少量的语义强相关主题词向量比较,大大减少了计算量,提高了标引效率。开发的自动标引工具对近亿篇文献进行了主题标引,达到了较高的速度。与结巴关键词的实验对比结果显示,本文方法抽取的主题词与作者关键词重合度较低,且在去除结巴关键词中的非主题词后,取得了比结巴关键词更高的标引准确率;与人工标引的实验对比结果显示,随着人工标引词数量的增加,本文方法的效果、结果与人工标引结果的一致性在不断增加。  相似文献   

10.
副主题词是指主题词所论述的重点课题的自然范畴或者通常发生的某一方面,对主题词限定的一类词汇。副主题词本身涉及医学研究的特定范畴,通过对副主题词频率的统计分析可以揭示医学研究的热点与方向。本文采用基本检索的方式,检索了近年来在中国生物医学文献数据库(CBM)所标引的文献,从中抽取3000篇文献,对其中的副主题词出现的频次进行统计,并对统计结果以图表的形式进行了分析。希望信息用户能根据这些分析更加了解在学科上医学文献的研究热点与特色,以期待更好的为临床及科学研究服务。  相似文献   

11.
本文为解决领域科技文献与专题价值的割裂问题提出深度融合科技文献、科研活动等科研对象与领域专题数据资源的图谱构建方法。通过主题词关联设计,构建包含期刊论文、期刊、科研机构、科研人员及专题实体类型的科研本体,选取机器学习专题构建科研知识图谱,并基于图数据库Neo4J进行图谱管理与查询验证。该专题科研知识图谱可以支持单实体/属性、多实体事实性问题的复杂图谱查询,有效揭示专题、科技文献的关联关系,具有较强的应用价值,可以为面向文献数据的智能知识服务提供新的思路和方向。  相似文献   

12.
[目的/意义] 通过量化计量指标对研究主题的知识扩散进行测度与分析,客观地展现研究主题所包含的知识单元的扩散路径及其扩散规律。[方法/过程] 以Web of Science(SCI-E&SSCI)数据库核心合集为数据来源,通过被引参考文献检索方法,以J.E. Hirsch 2005年首次提出H指数概念的文献为被引文献,检索2005-2015间引用该文献的施引文献,得到样本数据。借助信息可视化分析工具CiteSpace分别进行关键词共现与文献共被引分析。将分析结果通过本文所提出的双阶知识扩散度指标Q算法进行计算,得到指标Q量变情况,并进一步分析H指数研究领域的演化扩散状况。[结果/结论] H指数研究主题的知识扩散的相关性随着流动阶层的增加而降低;H指数研究主题一、二阶知识扩散文献的主要研究方向不同,二阶文献更侧重于应用领域的拓展,这也是该研究邻域知识流动的新增长点;通过对H指数研究主题的分析,证明了本文所提出的双阶知识扩散度指标Q的准确性及科学性。  相似文献   

13.
[目的/意义]学术文献影响力评价指标不断推陈出新,但尚缺乏在研究主题层面对文献影响力的评价,为发现不同研究主题内具有高影响力和引用价值的文献,本研究给出一种基于研究主题的文献影响力评价方法。[方法/过程]以Web of Science数据库中2011年-2015年间情报学领域500篇高被引文献为样本,利用LDA模型对样本文献进行主题建模,将主题对文献的支持度与文献被引频次相结合,计算特定主题文献的被引频次(specific topic cited frequency,简称STCF),并根据每篇文献在相应主题内的STCF值对文献进行影响力排序。[结果/结论]结果表明,STCF值能反映文献的主题内容、细粒度体现文献的学术地位、呈现文献研究主题的多元性,能够有效弥补被引频次、Altmetrics指标的不足。  相似文献   

14.
在知识经济时代,知识流动在激发知识创新和促进科技发展等方面的价值逐步凸显出来。本文在直引-共被引-耦合三维引文关联网络融合的基础上,对主题关联层面进行映射,对领域内潜在的知识流动进行挖掘。链路预测指标作为特征值,分别应用于构建分类器和回归器。其中,分类器用于预测目前尚未存在、在未来极有可能发生的知识流动;回归器主要用于预测目前链接权重较低的,尚未引起广泛关注、但在未来具有较高链接权重的知识流动。两种预测层面综合互补,可更全面地探测领域内的研究前沿或新兴趋势。利用该思路对当前热门的基因编辑技术领域进行探索研究,得到了该领域中的潜在知识流动和潜在研究的热点,为科研人员选择研究方向提供参考。  相似文献   

15.
碎片化科研创新点动态挖掘研究   总被引:3,自引:0,他引:3  
从海量科技信息中挖掘出科研创新点碎片已成为大数据环境下知识挖掘与服务的一个关键问题,也仍然是迄今为止非结构化知识发现的一个难题。文章提出一种碎片化科研创新点动态挖掘方法。通过对学术成果的要素和条件分析,建立学术成果创新要素的关键变量和语义关系,给出学术成果创新点的本体模型;基于模型的理论指导,实现科技文献中科研创新点碎片的动态挖掘系统。该方法有利于过滤海量科技文献的创新点,发现文献中的知识关联关系,提高文献知识挖掘的效率,为科研工作者快速方便地直接获取科研动态信息提供技术支持。  相似文献   

16.
李慧  胡吉霞 《图书情报工作》2020,64(18):114-125
[目的/意义] 针对包含单一类型知识单元的知识网络难以全面反映学科知识结构的问题,提出一种从多维度进行知识网络结构融合的方法,为学科领域知识结构挖掘提供借鉴。[方法/过程] 利用LDA及TF-IDF方法抽取学科知识单元,然后运用语义相似度和关键词共现分析方法构建3个学科知识子网络:主题网络、关键词网络和实体网络,并采用空间节点传递对齐方法对齐子网络节点,接着设计基于图卷积操作的自编码模型对知识节点进行表示,最后通过计算余弦相似度重构学科知识网络。[结果/结论] 实验部分以人工智能领域为例,构建融合主题、关键词和实体的学科知识网络并展开分析,实验结果表明,本文所提方法能有效地揭示学科领域研究内容和知识结构,为学科知识发现与组织研究提供有益参考。  相似文献   

17.
[目的/意义] 作者共被引分析是探索领域知识结构的重要方法,在复杂的学科发展态势下,其依赖于共被引频次的作者关联度度量颇具争议。对此,提出一种基于语义和位置相似的作者共被引分析改良方法。[方法/过程] 在介绍基本原理的基础上,以图情领域为例开展基于语义和位置相似的作者共被引分析改良方法的效果实证,面向CNKI期刊库进行引文全文挖掘,并对引用句及引用位置进行抽取,结合预训练的领域词嵌入模型计算共被引文献间的深层相似度和作者间的关联强度,利用网络分析和因子分析法对比该方法与传统方法的效果差异。[结果/结论] 结果证明,基于语义和位置相似的作者共被引分析改良方法能更准确地识别共被引作者的关联强度,可发现更为细致的学科知识结构,并具有可拓展性与可应用性。  相似文献   

18.
以探寻癌药物靶点间的潜在关联为例,对基于传递闭包的知识发现方法和Swanson的一阶知识发现方法进行了比较,结果得到,运用传递闭包的方法获得知识假设,可能发现更多有意义的新关联,且得到较高查全率的同时,并没有牺牲过多的查准率。  相似文献   

19.
[目的/意义]为了更好地揭示主题研究领域跨学科发展的学科对象和研究内容,提出一种综合的跨学科态势分析方法。[方法/过程]首先,根据主题领域确定涉及到的所有学科类别,并定义学科影响力指数,构建学科影响力网络。然后,对学科影响力网络进行中心度、结构洞和可视化分析,识别核心学科类别。最后,构建关键词-学科类别共现网络,使用网络中心度分析获得由关键词表示的主题内容,并结合核心学科类别和领域专家意见获得跨学科主题内容。[结果/结论]实证表明提出的分析方法能够在一定程度上揭示主题研究领域跨学科发展态势,其有效性得到一定程度的验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号