首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 556 毫秒
1.
新兴研究主题识别可为研究者提供选题方向,把握技术未来前景。传统基于关键词的主题识别,不能准确反映主题词之间的逻辑关系,因而对研究主题的揭示需要依据专家的判断。本文提出的基于突现文献和SAO相似度的新兴研究主题识别,在确定了具有新兴特征的文献后,通过对文献摘要的语义关联分析,揭示了文献研究内容的相似性,从而更准确地提炼出研究主题。文章最后以精密单点定位技术为例对所提出方法进行了实证分析。  相似文献   

2.
针对传统主题检索系统的弊端,提出了包括全文主题词标引、概念标引、检索式语义分析、概念扩展、模式匹配、基于汉字相似度的主题词联想等相关技术,使用这些技术可以发挥主题检索和自然语言检索各自的优点,使传统主题检索系统成为智能化、高层次的信息检索系统.  相似文献   

3.
【目的/意义】从海量自助餐用户评论数据中抽取有效关键词构建主题和主题词,协助商家了解用户口碑, 进而更好的改善餐饮行业的管理水平。【方法/过程】通过融合TF-IDF、TextRank和LMKE三种不同的关键词抽取 方法获取最优关键词,再对抽取的关键词进行语义聚类、主题识别、主题词挖掘和主题权重计算,最后在采集的美 团数据集上进行验证方法的有效性。【结果/结论】实验结果表明,三种关键词抽取方法的融合比单个关键词算法效 要好,文本评论聚类后的主题分别是:味道、菜品、环境、服务、价格,主题的重要程度依次是:味道 36.2%、服务 22.9%、价格15.1%、环境13.6%、菜品12.2%。实验结果证实,通过该方法能够有效识别和构建主题及主题词,并计算 出用户对于不同主题关注的重点内容,同时为餐饮行业主题及主题词挖掘和应用研究提供了一定的理论和技术基 础。【创新/局限】提出一种半监督语义聚类的主题识别、主题词构建和主题权重评估方法;不足之处在于本次实验 仅以武汉地区的美食自助餐评论为主,其构建的主题适用性范围有限。  相似文献   

4.
[研究目的]基于研究前沿多维特征指标测度识别研究前沿,分析科学前沿主题与技术前沿主题间的联系及其演化。[研究方法]首先,对论文和专利数据进行主题挖掘,从前沿主题特征出发通过新颖度、增长性、影响力和交叉性4个测度指标识别出研究前沿,分析科学前沿主题与技术前沿主题间的联系;其次,通过主题相似度计算、主题过滤等方法识别具有演化关系的主题对,并对前沿主题内容演化过程进行可视化分析。[研究结论]以固体氧化物燃料电池领域为例,识别出了包括固体氧化物燃料电池堆研究等在内的4个科学前沿主题与复合电极材料在内的4个技术前沿主题,科学研究与技术研究互相推进,呈现双螺旋式发展。  相似文献   

5.
问责是媒体履行社会责任的有效途径之一,2008年发生的汶川地震是中国媒体建设问责制度的良好契机.本文对国内五份主要报纸媒体中有关汶川地震的11515篇报道按照问责主题进行了二次主题抽取,对抽取出的249篇报道进行了主题词统计和分析.调查发现:国内媒体已经开始建设问责制度,不同的媒体由于定位和特征的不同,在问责主题的选择上也有显著差异.在此基础上,提出了政府应协同媒体在灾害管理过程中充分发挥并提高问责的功能和效能,促使媒体在危机沟通中发挥积极主动作用等建议.  相似文献   

6.
[目的/意义]分析期刊主题分布特征有助于揭示学科领域的研究主题,掌握科学研究的整体发展态势,为寻找科研着力点提供参考。为改善已有的期刊主题研究忽略主题分布均衡性的不足,提出一种基于点度中心度及其均衡性的期刊主题分布特征分析方法。[方法/过程]以2013—2019年图书情报与档案管理学领域20种CSSCI来源期刊为例,首先,利用聚类方法对各期刊主题进行类团划分,进而计算不同主题类团的点度中心度;其次,利用Gini系数计算期刊主题类团网络中点度中心度的均衡性Gc;最后,根据期刊主题数量n和期刊主题类团点度中心度的均衡性构建"n-Gc"二维坐标,在二维坐标中展示并探讨期刊主题的分布特征。[结果/结论]实验表明,"点度中心性"与"均衡性"结合得到的期刊主题分布特征与期刊实际收录主题特点基本一致;同时,"n-Gc"二维坐标对期刊主题特征的描述粒度更小,描述结果更加全面、细致。  相似文献   

7.
为了快速有效地自动处理中文Web文本,提出了一种基于领域本体的主题特征抽取方法.该方法针对Web文本特点,介绍了一种领域词典的半自动化构建方法.基于领域词典切分文本,通过对词条的主题映射,采用领域本体的概念表示文本向量,从而有效地降低文本特征向量的维数,提高主题抽取的质量.考虑文本信息的不同位置与频率,计算主题特征的权值,并且基于领域本体的结构,对主题概念的权值进行调整和排序.实例验证了该方法的有效性.  相似文献   

8.
文章吸收词频原则、逆文档频率原则以及共词分析的思想,提出解决文档主题新颖度量化问题的4个原则,在此基础上定义带时间戳关键词逆文档频率、带时间戳关键词对逆文档频率、文档新颖度等3个概念,给出文档新颖度的计算公式,并对该公式的实用性与合理性进行实证研究.实验结果表明:文中提出的文档主题新颖度量化方法是科学的、合理的、可操作的,但是,不规范的标引词标引、关键词个数过少等现象对主题新颖度计量结果的准确性影响较大.  相似文献   

9.
[目的/意义]产业变革快速演进,技术创新成为驱动社会经济发展、提高国家和企业科技竞争力的关键所在,如何对前沿技术进行识别和预测,成为国家科技政策研究和企业技术创新活动关注的热点。[方法/过程]以人工智能作为重点研究领域,首先以LDA模型进行技术主题抽取,并结合K-means算法进行专利文本聚类;在此基础上,以Z分数表示技术主题创新度,以Sen's斜率估计技术主题授权趋势,两个指标结合形成技术主题前沿度并将二者映射到二维空间,识别前沿技术主题以及划分技术主题类型;再,计算前沿技术主题的新颖度和关注度,二者融合形成技术主题趋势度指标;最后,采用三次指数平滑法对前沿技术主题的发展趋势进行预测。[结果/结论]人工智能领域的前沿技术主题有“智能家居”“电动汽车”和“自动化控制系统”,其中“智能家居”在未来3年的发展呈下降态势,而“电动汽车”和“自动化控制系统”的发展呈明显上升趋势。  相似文献   

10.
史旗凯  郭菊娥 《情报科学》2008,26(10):1558-1562
为了实现对管理领域中主题的准确识别,在从管理活动描述文本中抽取管理问题特定信息的基础上.通过系统考察从文本表示、特征降维到聚类分析的方法技术特点,并提出类特征概化这一新的概念和实现方法.完成了对所研究问题的解决方案设计.实证分析结果与问卷结果和访谈结论所进行的综合分析和判断结果相比较,初步验证了本研究方法对于主题识别的有效性和可行性.  相似文献   

11.
【目的/意义】目前在多文档自动摘要方面,研究者们主要关注于获取多文档集合中的重要主题内容,提出的很多自动摘要方法在提高摘要代表性的同时却忽略了文档中的潜在主题。【方法/过程】针对于多文档自动摘要中存在的冗余度较高且不能全面反映主题内容的问题,本文提出了一种基于句子主题发现的多文档自动摘要方法。该方法将多篇文档转换为句子集合,利用LDA主题模型对句子进行聚类分析与主题发现,并通过word2vec训练词向量计算句子的相似度;最终在主题之下通过TextRank算法来计算句子重要性,并结合句子的统计特征生成多文档集合的摘要。【结果/结论】通过人工测评的结果表明,本文提出的多文档自动摘要方法在主题覆盖性、简洁性、语法性等方面都取得了不错的效果。  相似文献   

12.
徐震 《现代情报》2006,26(10):149-150,175
本文首先分析了传统主题检索系统的弊端,然后提出了针对这些弊端的优化技术,包括全文主题词标引、概念标引、检索式语义分析、模式匹配等相关技术,使用这些技术可以发挥主题检索语言和自然语言检索各自的优点,使传统主题检索系统成为智能化,高层次的检索系统.  相似文献   

13.
主题演化分析在捕捉最新的学术热点和发现重要的科研成果中起着重要作用.文章借鉴信息检索领域中的时间检索方法,提出一种主题演化中关键时间点计算的方法.基于情报学期刊的实验结果表明,该方法可有效地找出某一研究分支中相关主题演化的重要时间段,为从时间角度研究学科演化提供了一种新的方法和思路.  相似文献   

14.
[背景/意义]研究和对比不同主题建模方法在科学文献主题识别上的应用表现,对于合理选择使用主题建模技术开展科学文献主题挖掘具有重要意义。[方法/过程]通过构建中英文科学文献实验语料,选择3种主题建模方法(LDA、Top2vec、Bertopic)和5种文本特征计算方法(Bag of Words、TFIDF、Doc2vec、MiniLM、SciBert)进行中英文科学文献主题建模实验,并对不同建模结果的主题多样性、主题一致性、主题稳定性和主题离散性指标进行对比分析。[结果/结论]不同建模工具的主题识别结果存在较大差异,其中LDA与Bertopic在英文和中文语料上识别出的主题中具有相似性关系的主题占比相对较高,但也仅为9.81%和7.46%;基于Doc2vec算法的Top2vec模型在主题多样性指标上的表现相对最优;基于文本预训练算法的Top2vec模型和Bertopic模型的主题稳定性和离散性指标优于传统主题建模方法。针对大语言模型技术的快速发展和广泛应用,加快推进科学文献预训练模型研发,并将之应用于科技情报业务实践是当前的重要研究方向。  相似文献   

15.
[研究目的]专利是技术信息的载体,以专利数据为研究对象,在产业链视角下进行技术主题提取及识别,从专利数据中识别新兴技术可以有助于把握新兴技术的发展动态。[研究方法]首先,根据产业链的概念和专利IPC分类号构建出产业链各个层级对应的专利集;然后,结合专利文本的特点提出EW-LDA主题模型,从词汇权重和语境两个角度对LDA主题模型进行改进,使用EW-LDA模型提取出产业链的各个层级中得技术主题;最后,根据专利文本及新兴技术的特点,从新颖度、热点度、关注度和增长率四个方面入手构建新兴技术主题识别指标,将技术主题分为新兴、热点、潜在、衰退和噪音五类。并在人工智能领域的专利数据上进行实验。[研究结论]结果表明,提出的EW-LDA主题模型具有更好的主题建模效果,产业链视角下的新兴技术主题识别方法可以有效的识别出新兴技术。  相似文献   

16.
共词聚类分析方法是科技情报分析的一种重要的方法和技术,已逐渐发展成为科技情报分析中最活跃的研究领域之一。共词聚类分析方法可以形成一系列由科技文献组成的文献聚类,这些聚类所包含的主题特征对于揭示学科领域知识发展变化具有很好的指示作用。本文分析了基于词频统计共词分析的主题识别方法及其局限,提出基于概率模型的主题识别方法。实验表明,该方法可以充分地利用概率模型的优点,改进了传统共词分析方法的不足,从而可以更好地应用于主题分析中的主题识别环节。  相似文献   

17.
本文充分考虑了主题词之间的已知关联和未知关联,利用MeSH词表对已知关联进行了处理,优化了主题结构分析方法,并以属分关系为例,对该方法进行了实证分析.结果表明在阈值一定的前提下,基于MeSH的主题结构分析方法能够有效地剔除词间的已知关联,揭示出相对较微弱的词间未知关联,起到了主题词关系过滤的作用,为知识发现奠定了基础.  相似文献   

18.
先从网页内容和网页链接的角度计算网页与主题的相似度,然后将二者归一化,最终确定网页与主题的相关度.从分析网页内容相似度的角度保证网页与主题的相关性,从网页链接分析的角度解决网页搜索的权威性和覆盖乔率.算法还对PageRank算法进行了改进,将访问网页的概率加入到算法计算过程中,实验结果表明,新的算法具有较高的搜索效率.  相似文献   

19.
[目的/意义]颠覆性技术具有前瞻性、突变性与革命性等特征,对于国家科技创新发展具有巨大的推动作用,在各国的科技研发体系中逐渐占有重要的战略位置。当前各国政策文本数量庞大、主题繁多,传统的情报分析方法难以实现大量政策跟踪与内容挖掘。通过大量政策文本进行主题抽取,可以快速了解其他国家在相关领域的政策倾向与关注焦点。[方法/过程]文章采用word2vec和LDA相结合的主题模型分析技术,对3个国家政府和组织官网公开的颠覆性技术相关的11686条政策文本数据进行主题抽取,通过对主题建模结果的解读,分析欧盟、英国、美国颠覆性技术相关政策文本的主题特征。[结果/结论]研究发现,这些国家和组织在颠覆性技术识别与政策支持方面已经有较为体系化的运转模式,同时对颠覆性技术在计算机科学、信息科学、生命科学、材料与能源、医疗、教育等领域内产生的影响给予了较高关注,且在近几年中普遍倾向于关注国际上达成共识的全球性问题。  相似文献   

20.
[目的/意义]为提高新兴技术主题识别的全面性、准确性,在专利、论文信息的基础上,融入舆情信息,提出一种复合型的新兴技术主题识别方法,以期能为微观层面新兴技术主题识别方法的研究提供参考。[方法/过程]面向专利、期刊论文、学位论文、会议论文、舆情共5种不同的科技文献类型,运用LDA模型从多源异构文本中获取主题词,并进行融合分析,提取候选新兴技术主题;设计识别指标体系,弥补现有指标体系缺乏未来前景相应指标的不足;运用CRITIC法进行综合评价,确定最终的新兴技术主题。[结果/结论]以智能网联汽车为实验对象,成功识别出多传感器融合信息技术这项新兴技术,实验结果与业界分析保持一致,说明多源信息视角下的多指标新兴技术主题识别方法能有效地对多源异构文本开展新兴技术的主题识别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号