首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 259 毫秒
1.
[目的/意义] 由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法/过程] 提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果/结论] 通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。  相似文献   

2.
[目的/意义]针对医学文本的特点,提出一种基于语义图的多文档自动摘要方法,并利用其中的语义信息实现摘要主题的识别。[方法/过程]利用SemRep实现源文档概念及其语义关系的规范化抽取并构建语义图,从概念-关系-社区3个层次对网络图中的关键信息进行抽取并生成摘要,利用概念-语义类型-类型分组三级映射实现对概念的归类,结合语义搭配模式对摘要主题进行划分。[结果/结论]通过对5种疾病数据集进行测试,结果显示该方法能有效识别出文献集中的核心内容,语义图中所富含的语义信息能准确地对摘要进行主题划分。  相似文献   

3.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

4.
基于专利文献的技术演化分析方法研究   总被引:1,自引:0,他引:1  
在分析现有方法之不足的基础上,提出一种更完善的基于专利文献的技术演化分析方法:①采用分类号替代关键词作为专利文档聚类的基础;②采用基于语义的分类号-专利文档相似矩阵代替关键词-专利文档存在矩阵聚类;③采用更适合小样本聚类的系统聚类法。以石墨烯传感器技术为例,进行实证分析,绘制出石墨烯传感器技术层次语义网络图与技术演化图。研究结果显示,该方法可较好地应用于专利技术演化分析。  相似文献   

5.
[目的/意义]为全面、客观、高效、直观地掌握科技领域主题的发展规律和演变趋势,提出一种基于多源数据的领域主题演化路径识别和分析框架。[方法/过程]获取不同来源的科技文献数据,利用多维样本有序聚类方法辅助时间切片,基于改进的词袋构建方法,提升LDA模型主题识别效果,借助Louvain社区发现算法在主题层进行多源数据的融合,分析领域主题演化路径。[结果/结论]利用美国太赫兹研究领域基金项目、论文和专利3种来源的数据进行实证研究,结果表明,3种数据源能够清晰划分出4个时间窗口,改进的词袋构建方法能够表征更准确的领域信息内涵,主题社区有助于从多源数据复杂的演化网络中厘清主题演化脉络。  相似文献   

6.
[目的/意义] 微博转发是实现微博信息传播的重要方式,对用户转发行为进行研究可以更好地理解微博信息传播机制,对热点话题检测、舆情监控、微博营销等具有重要意义。针对以往研究中用户兴趣表示不够全面准确以及未考虑情感差异对用户转发行为的影响,提出一个融入情感差异和用户兴趣的微博转发预测模型。[方法/过程] 该模型首先从维基百科中提取概念语义关系构建维基知识库,将其作为语义知识源对微博文本进行语义扩展,解决语义稀疏问题;对语义扩展后的用户历史微博进行聚类,提取用户兴趣主题和主题对用户的影响力;然后计算微博中各类情感的情感强度,提取情感差异特征;最后结合用户行为特征、用户交互特征、微博特征、用户兴趣特征和情感差异特征,运用SVM实现微博转发预测。[结果/结论] 在新浪微博真实数据集上进行实验,验证了所提模型的有效性。  相似文献   

7.
随着互联网规模的急剧扩张,提升信息检索的效用变得相当困难.本文首先通过特定算法提取每篇文档的关键词,然后运用统计方法计量不同文档的共现关键词并形成相应的共现关键词标签矩阵,最后利用层次聚类算法对共现关键词标签进行聚类并形成相应的层次标签树来构造文档聚类束.该方法可以对源搜索引擎返回的结果进行有效的分类,使用户在更高主题层次上查看检索词的相关信息,准确地找到感兴趣的信息.通过与Lingo算法的比较,显示本文算法所得的标签更具可读性和概括性,同时F-measure评价指标也表明本算法在文本聚类的质量上有了一定的提升.  相似文献   

8.
基于自然语言词对法的文献主题新颖性探测研究   总被引:1,自引:0,他引:1  
[目的/意义] 提出一个全新的量化指标--文档主题新颖度,通过自然语言词对方法对文献主题内容的新颖性进行探测研究,并探讨其可行性和优缺点以及新颖度与F1000推荐文献和引文指标之间的关系。[方法/过程] 以F1000为基础,选取hematology主题近一个月内推荐的文献,在Pubmed中查找并获取该推荐文献发表之前6个月内密切相关的文献,构成整个文献集。定义自然语言法新颖度的概念、计算公式并利用Oracle数据库PL/SQL语言进行编程,通过MetaMap软件提取自然语言词汇进行文献主题新颖度的运算。[结果/结论] 自然语言法在文献主题新颖性探测的运算上具有一定的可行性;文档主题新颖度与F1000推荐文献、引用情况并非成等价关系,分属于科技论文评价的不同维度、不同范畴,不可一概而论。应将文档主题新颖度这一新指标与同行评议情况和文献计量学等其他相关论文评价指标结合起来对文献进行综合评价分析,选取优质文献给予推荐。  相似文献   

9.
[目的/意义] 基于AToT模型的多维动态演化分析,不仅可以全面地了解技术主题的动态变化,把握不同时期不同企业的技术布局变化,还可以掌握产业链各环节的技术发展状态,为企业创新提供强有力的决策支持。[方法/过程] 首先提取专利文献摘要中的名词或者名词短语,然后利用AToT模型揭示专利文献中隐含的主题演化及专利权人的技术关注点,最后结合产业链信息把握产业各个环节的发展状况。[结果/结论] 实验结果证明,该方法能够高效地分析专利的内容,揭示企业技术主题的动态演化过程。  相似文献   

10.
孙海生 《图书情报工作》2016,60(10):123-129
[目的/意义] 传统共词分析的聚类算法存在以下不足:①关键词只能被划归一个聚类;②聚类过程对分类数目的确定缺乏严格判断标准。针对以上问题,采用复杂网络理论进行改进研究。[方法/过程] 采用连边社团检测算法对关键词进行聚类,以科学计量学为例进行实证研究。[结果/结论] 分析结果表明:算法对关键词的聚类结果有较好的改进效果,能够把核心度高的关键词同时划分到不同的研究主题之中,克服传统聚类算法的不足,而且划分密度可为聚类数目的确定提供客观判断依据。  相似文献   

11.
学术文献引文推荐研究进展   总被引:1,自引:0,他引:1  
[目的/意义]学术文献引文推荐是指对于给定的学术文献,自动化地为其推荐合适的引文和参考文献。借助于引文推荐,用户可以在一定程度上提高撰写学术文献的效率,降低对重要相关文献的漏引。[方法/过程]分析国内外引文推荐研究的最新进展,阐述引文推荐问题的演化过程,从局部引文推荐和全局引文推荐等方面对引文推荐进行梳理,重点归纳文档相似性、主题模型、翻译模型、协同过滤和混合推荐等5种引文推荐常用方法,并总结引文推荐常用数据集和测评方法。[结果/结论]已有引文推荐研究的主要问题在于未考虑用户偏好的动态变化性及研究领域的综合性,在用户研究和实际应用方面仍有所欠缺;未来引文推荐的研究可运用语义化表达方法和自然语言生成技术,从基于上下文的引文推荐和跨语言引文推荐等方面进行展开。  相似文献   

12.
[目的/意义] 以在线社交网络为研究对象,通过文献梳理准确捕捉社区发现的发展态势及研究热点,探究如何在大规模社交网络中挖掘隐藏社区,具有理论和实践意义。[方法/过程] 以中国知网(CNKI)数据库、Web of Science核心合集及相关国际会议文献作为数据来源,应用CiteSpace可视化分析工具从热点关键词、主题演化路径以及共被引文献等方面进行定量研究,并从社区发现方法、算法实现及应用实践3个维度对文献内容详细述评。[结果/结论] 当前研究领域仍有广阔的发展空间,未来应注重算法的优化及创新、应用场景的区分和拓展以及融合跨学科知识、前沿技术方法的交叉研究。  相似文献   

13.
科研人员在线社交网络使用行为研究综述   总被引:4,自引:1,他引:3  
[目的/意义]归纳总结科研人员在线社交网络使用行为研究现状,提出值得关注的问题,为进一步深入研究提供参考。[方法/过程]通过关键词检索和引文追溯两步骤的文献收集方法系统收集国内外相关文献,对文献进行系统阅读、分析,归纳研究主题,并进行论述。[结果/结论]将收集到的63篇文献按照其研究主题,归纳为用于科研目的的在线社交网络功能与分类、科研人员在线社交网络使用的人口统计学特征研究、使用动机研究、内容创建和获取行为研究以及群体行为研究。认为未来深入研究可以从在线社交网络科研过程嵌入机理、基于全局数据的行为规律研究、持续使用机制及信息服务系统改进实证研究4个方面进行。  相似文献   

14.
学术文献引文上下文自动识别研究   总被引:2,自引:2,他引:0  
[目的/意义] 引文内容分析能够帮助揭示文献引用关系的深层语义内涵,而引文上下文识别作为引文内容分析的基础显得尤为重要。[方法/过程] 梳理已有引文上下文研究的现状,总结当前引文上下文识别的不足,在此基础上归纳引文上下文识别的5类特征,并采用文本分类和序列标注两种方法开展引文上下文自动识别实验。[结果/结论] 实验结果表明,本文提出的特征能够很好地提升引文上下文识别效果,且基于文本分类的SVM分类效果要优于基于序列标注的CRF。  相似文献   

15.
[目的/意义]总结近10年来国内外数字阅读领域的研究现状,为进一步深入研究提供参考。[方法/过程]通过关键词检索和引文追溯两步骤的文献收集方法,系统收集国内外相关文献,对文献进行阅读、分析,归纳研究主题,并进行论述。[结果/结论]将收集的文献按研究主题归纳为阅读策略及运用、阅读理解与绩效、阅读素养测评及影响因素、阅读行为与动机、数字阅读的实践与应用5个方面,评述现有研究的不足并指出了未来的研究方向。  相似文献   

16.
[目的/意义]研究前沿的准确判断是国家宏观层面的战略需求,文献计量学作为一种定量研究方法广泛应用于科学主题探测和研究前沿识别中。[方法/过程]梳理研究前沿主题探测的发展历程和方法模型,引入全域微观模型的概念,详细介绍SciVal模块采用的主题创建方法,包括直接引用文献聚类、关键词主题命名和研究前沿遴选的主题显著性算法,并对SciVal创建的9.6万个主题和遴选出的前1%的研究前沿主题的特征进行实证分析。[结果/结论]全域微观模型可以同时一次识别整个科学领域的所有主题,但不同学科在研究前沿上表现存在差异,不能把主题显著性简单等同为重要性;主题论文数量与主题排名之间存在中度相关性;自动抽取的关键词术语从学科领域层和独特性上命名和描述主题;石墨烯相关前沿主题的演变趋势分析可以用于发现关键节点和新兴主题。  相似文献   

17.
[目的/意义] 重点针对一些在数据库中无法找到既定的主题分类,无法罗列完整关键词,也不可能通过选择有代表性机构和现成的学科领域核心期刊的方法实现数据集构建的领域,提出一种基于期刊主题相似性的领域分析数据集构建的方法。[方法/过程] 该方法组合运用引文分析与期刊文献耦合分析方法,并借助科学知识图谱绘制方法,通过确定学科领域的代表性期刊群组,经过不同形式的组配最终达到满足不同层次需求的构建数据集的目的。[结果/结论] 本方法可以满足宏观、中观和微观不同领域分析层次的需求,操作过程简单灵活且人工干预的程度不高,通过在具体领域的实例验证,证明其可以有效地解决一些领域数据集构建的难题,对今后相关研究具有一定借鉴意义。  相似文献   

18.
[目的/意义] 概率主题模型算法在不断得到改进与扩展,本文对国内外已有的利用引文构建的主题模型进行研究,分析和对比不同模型的生成过程与算法,并探讨利用引文构建的主题模型在科技文本分析中的应用与可扩展的研究方向。[方法/过程] 通过Web of Science数据库和CNKI数据库获取国内外利用引文构建主题模型的相关文献,经人工判读后筛选出具有代表性的文献,对这些文献中利用引文构建的主题模型,从建模思想、生成过程、参数估计与推断算法等方面进行对比与分析。[结果/结论] 目前国内外利用引文构建的主题模型主要包括研究主题与引文分布的主题模型、研究被引与施引主题间关系的主题模型,以及基于引用内容的引用主题模型;主题模型中引入引文信息后,能够获得更完整的主题内容和特定主题下的重要文献,并可识别施引文献和被引文献之间主题间的关系及影响;已有的模型多集中在概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)和潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型基础上进行扩展。未来可扩展研究引入引用内容的主题模型、模型的性能优化和评价方法、模型的应用研究等。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号