首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 234 毫秒
1.
庞弘燊 《图书情报工作》2015,59(24):115-122
[目的/意义]基于科技论文多特征项共现突发强度的分析方法研究是将各学科领域科技论文文献载体中的多特征项共现信息定量化、重点热点突发的信息内容可视化的知识图谱分析方法。从动态论文等文献的文档流中探测出突发的特征项对识别密集的内容、活跃的特征项以及预测文本内容的发展走势具有重要的意义。[方法/过程]本研究针对科技论文多特征项共现的突发监测问题,对比目前已有的突发监测分析算法,将改进后的基于卡方统计的热点词计算方法进一步应用于本研究所设计的多特征项突发共现分析方法,并自主开发多特征项突发共现可视化分析工具,用于科技论文多特征项突发共现的图谱可视化,以期通过该研究来揭示相关科技文献的变化状况及突发的热点内容。[结果/结论]通过将本方法应用到科研机构年度发表论文的监测当中,可以监测分析科研机构发文作者、关键词、发表期刊及其相互间关系(如作者-关键词等)在各年的突发情况,并能通过该分析方法以及交叉图谱进一步解读突发特征项的含义,并能揭示出比分析单一特征项突发情况更为广泛和深入的知识内容。  相似文献   

2.
[目的/意义]面向出版业进行专业领域出版时的选题决策问题,对互联网上公开的资讯动态进行多源整合,通过多维度的情报分析探测专业领域内的热点,实现数据驱动的出版选题决策,为出版业的数字化转型与发展奠定坚实基础。[方法/过程]设计一个情报分析模型,面向出版选题决策进行专业领域的热点探测。模型包含热点发现与热度评价两个过程。热点发现过程,通过词频统计和词增长速度算法对专业领域内的热点进行识别;热度评价过程,从内容层面和传播层面两个维度设计并计算一系列指标,对识别到的热点进行热度评价与排序。[结果/结论]以2018年1月至4月的36 550条信息、通讯和技术领域多源中文信息为样本进行热点探测实验,实验结果表明,设计的热点探测模型可以有效地探测专业领域内的热点,辅助出版业科学地进行专业领域选题决策。  相似文献   

3.
[目的/意义]为克服关键词绝对词频分析的局限性,以关键词多因素加权及得分排名实现领域热点与趋势探索。[方法/过程]构建年度-关键词频次矩阵,用水平加权和垂直加权处理关键词词频,设计相对词频模型,计算关键词加权综合分值,以获得更有效的关键词排序。[结果/结论]基于关键词加权排序,可以识别量高质优型、量低质优型和突变型关键词,有利于挖掘研究热点和分析趋势。  相似文献   

4.
[目的/意义]构建关键词热度h值模型,探究近年图书情报领域热点与发展趋势。[方法/过程]基于学者Prathp的z指数模型,对关键词词频和文章被引值进行赋权,引入前人时间加权思想,多维角度归一化处理,计算热度值与年度排名,获得趋势。[结果/结论]比较加权前后绝对词频、z指数和关键词热度h值,排名结果差异明显;热度h值模型可提升热点关键词排名,拉低非热点关键词排名,排名情况验证h值的有效性,效果优良。  相似文献   

5.
[目的/意义]为全面、客观、高效、直观地掌握科技领域主题的发展规律和演变趋势,提出一种基于多源数据的领域主题演化路径识别和分析框架。[方法/过程]获取不同来源的科技文献数据,利用多维样本有序聚类方法辅助时间切片,基于改进的词袋构建方法,提升LDA模型主题识别效果,借助Louvain社区发现算法在主题层进行多源数据的融合,分析领域主题演化路径。[结果/结论]利用美国太赫兹研究领域基金项目、论文和专利3种来源的数据进行实证研究,结果表明,3种数据源能够清晰划分出4个时间窗口,改进的词袋构建方法能够表征更准确的领域信息内涵,主题社区有助于从多源数据复杂的演化网络中厘清主题演化脉络。  相似文献   

6.
[目的/意义] 在"新冠"疫情这类突发公共卫生事件中,网络社交媒体上迅速产生大量关于疫情的言论,其中包含不少蓄意传播的谣言,不仅危害公众心理健康,而且会影响应对公共卫生事件的方案实施。识别突发公共卫生事件的谣言能够使民众正确面对危机,为社会安定、网络治理起到积极的维护作用。[方法/过程] 首先对采集到的疫情期间已被证实的谣言进行深度分析,提取谣言文本的主要特征,包括上下文特征、话题类别特征、情感程度特征、关键词特征等;然后针对文本分类模型中的文本特征表达较为单一的问题,利用不同的模型对提取的谣言文本特征进行向量化,并对各类文本特征进行加强和融合。其中通过TF-IDF计算的词向量权重在捕获上下文特征的同时,能够加强词粒度的关键词特征信息。最后,使用BiLSTM+DNN模型对融合的特征向量进行分类判别。[结果/结论] 实验结果表明,话题类别、情感程度等特征对谣言识别均有贡献,特别是经过强化后的词向量与其他特征融合后对识别准确率有明显提升,召回率、F1值等指标均达到90%以上,效果超过其他的谣言识别模型,说明笔者所构建的方法能够很好地实现对突发公共卫生事件背景下的谣言识别。  相似文献   

7.
[目的/意义]近年来,热点论文逐渐受到学术界重视,为数不多的研究成果已开始探索热点论文自身的特征,但在影响因素等规律方面的研究工作尚不充分。[方法/过程]本研究利用TF-IDF算法和负二项回归模型,试图探究热点论文的分布特征、影响因素、时间窗口差异和学科类型差异。[结果/结论]研究结果表明,热点论文的分布特征侧重于发达国家、知名研究机构、交叉学科和权威期刊;并且受到精炼的标题、国家间合作、研究型产出、开放获取、高影响因子期刊等因素影响;热点论文存在时间窗口效应,甚至改变了标题、摘要、开放获取等因素影响热点论文的具体轨迹;学科间差异对热点论文具有影响,在标题、摘要、科研合作、文献类型、开放获取、期刊影响因子方面均存在差异。  相似文献   

8.
基于共词分析法的学科主题演化研究方法的构建   总被引:1,自引:0,他引:1  
唐果媛 《图书情报工作》2017,61(23):100-107
[目的/意义]相比于以单纯的关键词统计排序为主的词频分析法,和以文献作为分析对象、需要庞大的引文索引作为基础的共引分析法,共词分析法具有一定的优势。因此,基于共词分析法来研究学科主题演化规律。[方法/过程]构建基于共词分析法的学科主题演化研究方法,包括4个模块,分别是:数据准备、演化阶段划分、主题识别和主题演化分析。[结果/结论]在主题识别阶段改进了词频g指数来选取共词分析的对象;在主题演化分析模块,提出从静态和动态两个角度来分析学科主题的演化情况,构建三维战略坐标来进行静态分析,并构建学科主题演化现象识别模型来进行动态分析。  相似文献   

9.
[目的/意义]研究前沿的准确判断是国家宏观层面的战略需求,文献计量学作为一种定量研究方法广泛应用于科学主题探测和研究前沿识别中。[方法/过程]梳理研究前沿主题探测的发展历程和方法模型,引入全域微观模型的概念,详细介绍SciVal模块采用的主题创建方法,包括直接引用文献聚类、关键词主题命名和研究前沿遴选的主题显著性算法,并对SciVal创建的9.6万个主题和遴选出的前1%的研究前沿主题的特征进行实证分析。[结果/结论]全域微观模型可以同时一次识别整个科学领域的所有主题,但不同学科在研究前沿上表现存在差异,不能把主题显著性简单等同为重要性;主题论文数量与主题排名之间存在中度相关性;自动抽取的关键词术语从学科领域层和独特性上命名和描述主题;石墨烯相关前沿主题的演变趋势分析可以用于发现关键节点和新兴主题。  相似文献   

10.
[目的/意义]针对传统领域研究热点识别方法存在的低频词被掩盖、聚类主题词杂糅难以解释等问题,提出关键词类群分析法,通过构建符合领域研究范式的关键词类群模型,洞察科研细节和研究逻辑,实现领域研究热点的全面化、结构化揭示,为领域研究热点的高质量识别提供新思路。[方法/过程]提出关键词类群分析法概念,归纳不同学科领域科研论文摘要中的研究表达范式,阐述基于研究表达范式的关键词类群建立的原则和方式,构建利用该方法进行领域研究热点识别的模型。[结果/结论 ]实证分析选取2023年作物育种领域论文为数据集,验证方法的可行性和有效性。结果表明,相较于传统的研究热点识别方法,关键词类群分析法可以有效规避“孤立点式”的分析,从“中观层”的分析视角得到更丰富、精确的领域研究热点。该方法可为领域研究态势分析、领域知识创新决策等应用场景提供高质量的情报支撑。  相似文献   

11.
[目的/意义] 从学术文本词汇功能的角度出发,考虑科研文献中词汇的语义功能,设计和实现一个基于词汇功能识别的科研文献分析系统,在一定程度上弥补现有科研文献分析系统的不足之处。[方法/过程] 首先阐述学术文本词汇功能的定义及其识别研究的现状进展;在此基础上,对系统思路、功能模块进行设计;最后,选取1994-2013年CNKI中计算机领域的文献作为数据来源,实现一个基于词汇功能识别的科研文献分析系统CS-LAS。[结果/结论] CS-LAS可以满足科研工作者更为细粒度的信息需求,对于传统学术数据库的检索结果有一定的优化,同时实现对某一学科的研究热点和研究趋势的合理把握和可视化呈现。  相似文献   

12.
[目的/意义] 从用户角度出发,研究基于用户自然标注的TF-IDF辅助标引算法。[方法/过程] 首先以核心期刊论文中作者标注的关键词和分类号为源数据,通过对关键词词频进行统计,使用TF-IDF算法构建用户标注词表、形成标引知识库,然后通过IK Analyzer分词软件对待标引的科技项目数据进行切词和停用词处理,进而使用TF-IDF算法和位置加权算法提取科技项目数据的特征词,最终实现对科技项目数据进行关键词和分类的同步标引。[结果/结论] 实验结果表明,机标关键词与人标关键词的相似比在60%以上的科技项目数据占总数的68.1%,机标分类号与人标分类号前三位一致的占总数的83.9%,结果表明基于用户自然标注数据并采用TF-IDF算法在关键词和分类标引方面是可行的。  相似文献   

13.
[目的/意义]针对目前基于网络的话题识别与分析方法的局限性,提出针对网络问答社区的话题识别与分析方法,为此类网站的话题识别与分析提供参考。[方法/过程]以改进的中文分词技术为基础,构建网络问答社区的话题识别指标,通过线性加权方式计算权重,结合关键词提取方法确定话题关键词,对话题关注焦点进行提取,对分布情况进行测度。依据所提出的改进方法,以知乎网站为数据来源,从话题关键词、关键词分布以及热点子话题3个角度对"老年人"话题焦点进行识别与分析。[结果/结论]研究表明,该方法具有科学性和可行性,不仅拓展了社会问题的分析数据源,也为"积极开展应对人口老龄化行动"提供了决策依据。  相似文献   

14.
[目的/意义]提出一种基于词频、词量、累积词频占比三者变化关系的共词分析词集范围的确定方法,尝试对现有词集范围选取方法中仅凭经验判断和过度依赖词频为“1”的关键词的问题进行改进,为相关研究提供一种更加规范、科学、值得借鉴的做法。[方法/过程]该方法充分考虑词集实际分布规律和特点,将词或词组分类成高、中、低频,并选择高、中频词共同作为共词分析的对象。[结果/结论]通过在具体领域的实例验证以及与其他方法的对比,证明该方法可以有效地选择合适的词集范围,对今后相关研究具有一定借鉴意义。  相似文献   

15.
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。  相似文献   

16.
[目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。  相似文献   

17.
奉国和  孔泳欣 《情报学报》2020,39(1):100-110
基于生命周期理论和词频分析方法,对学科领域发展过程进行客观合理的动态跟踪与分析。构建时间-关键词频次矩阵,结合相对词频、词频变化率,引入逻辑斯谛(Logistic)函数赋予词频按时间递减的权重,设计时间加权关键词词频分析模型,计算关键词综合值,揭示学科研究热点及变化趋势;并以CNKI和CSSCI收录的18种图情领域核心期刊2013-2017年所刊载的文献关键词作为实验对象,从高频词、中频词、低频词三个方面验证模型的有效性和准确性。模型计算结果显示,上升型高频词排名上浮,下降型高频词排名下沉,可快速识别上升型高频词;同时排名靠前的低频词具有发展潜能,为学者把握未来研究趋势提供科学判断依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号