首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 375 毫秒
1.
[目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。  相似文献   

2.
学术文本词汇功能识别的目的是实现学术文本中表征问题、方法和对象等词汇的抽取。针对传统识别方法中训练难以获取所导致的识别准确率低、召回率有限和泛化能力差等问题,本研究提出了一种基于深度学习和标题生成策略的学术文本词汇功能识别方法,将任务形式由信息抽取转化为特定形式的标题生成问题。本研究采用构建seq2seq模型和引入注意力机制的方式捕获词汇多层语义信息,最终实现学术文本中问题和方法指代词的生成和获取。实验结果表明,通过应用深度学习方法和标题生成策略,本研究提出的模型能够从摘要中有效识别学术文献的主要研究问题和主要研究方法,并较已有方法在识别效果上有明显提升。  相似文献   

3.
为了丰富专利分类的网络和文本语义表示,实现两者更有效的语义融合,提高技术融合预测效果,提出基于专利分类序列和文本语义表示的技术融合预测方法。首先,综合考虑专利分类位置及其上下文语境,直接对专利分类序列进行语义表示,提出基于专利分类序列语义表示的技术融合预测方法;其次,根据专利分类在序列中的重要性排序研究专利分类文本分配方法,形成基于专利分类文本语义表示的技术融合预测方法;在此基础上,设计多种特征融合方法,提出融合专利分类序列结构和文本内容语义表示的技术融合预测方法;最后,基于链路预测的理论和方法对提出的多种技术融合预测方法进行定量评价。在无人机领域的实验证实,专利分类序列语义表示模型的效果明显优于其他网络表示学习方法;依据重要性排序的专利分类文本赋予方式优于文本平均分配方式,基于此的专利分类文本语义表示能更好地进行技术融合预测;“SVM (support vector machine)+哈达玛积”的特征融合方法在所有方法中表现最优,较单一方法均有提高。本文提出的方法能够提高技术融合预测的效果,更好地为技术布局、技术研发提供借鉴和参考。  相似文献   

4.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。  相似文献   

5.
为了提高网页自动分类的准确率,基于信息融合的模型理论,提出了一种通用的网页自动分类模型和融合算法。该模型根据完成功能的不同分为四个层次:信息抽取层、数据预处理层、特征层和决策层,其中特征层是针对网页上不同种类的媒体信息采用不同的分类方法进行分类,并将分类结果分别输入决策层和与该特征层算法相关的其他的特征层。决策层是处理特征层的分类结果,并推导出最终的网页分类融合结果,并将该模型和算法进行了实现。实验表明,文章提出的融合模型和算法可以有效地改进网页自动分类准确率。  相似文献   

6.
[目的/意义]学术文本结构功能是对学术文献的结构和章节功能的概括,针对当前研究较少从学术文本多层次结构出发进行融合和传统方法依赖人工经验构建规则或特征的问题,本文在对学术文本层次结构进行解析的基础上,构建了多层次融合的学术文本结构功能识别模型。[方法/过程]以ScienceDirect数据集为例进行实验,该模型首先通过深度学习方法对不同层次学术文本进行结构功能识别,接着采用投票方法对不同层次和不同模型的识别结果进行融合。[结果/结论]研究结果表明各层次集成后的整体效果较单一模型均有不同程度提升,综合结果的整体准确率、召回率和F1值分别达到86%、84%和84%,并且深度学习算法在学术文本分类任务中的性能较传统机器学习算法SVM更优,最后对学术文本结构功能错分情况进行了分析,指出本研究潜在的应用领域和下一步的研究方向。  相似文献   

7.
中文关键词自动标引方法新探   总被引:2,自引:0,他引:2  
提出以词汇对文献网络结构的贡献度作为提取关键词的衡量标准,突破小世界网络理论的物理意义,建立了以文献语义的小世界网络为基础的关键词自动抽取与标引的方法。实验发现,用该方法抽取的关键词更直观地揭示了文献的中心思想与重要概念,深度挖掘了文献潜在的知识内涵,若用它们作为表达文本知识的标识,则在一定程度上可改善集中式搜索引擎的全文检索质量,提高查准率。  相似文献   

8.
[目的/意义]为更好地提升科技文献的语义丰富化效果,对国内外科技文献语篇元素标注模型、技术和方法进行调研总结,为文本挖掘、科技论文知识抽取、语义分析系统研究者提供借鉴。[方法/过程]利用学术网站搜索和相关数据库搜索引擎,对涉及科技论文标注、语篇元素、知识抽取、句子识别和自动文章分类等参考文献以及研究报告进行深入阅读和调研,对语篇元素自动标注模型以及相关工作进展进行研究总结。[结果/结论]科技文献语篇元素标注具有非常重要的实际应用价值,构建标注模型需充分考虑构建思想、标注领域和标注粒度以及标注技术手段等方面。  相似文献   

9.
现有的主题标引方法一般只能抽取文本中出现的词汇,无法从几万或数十万主题词中选择语义关联强且未出现的词汇;基于机器学习的多标签分类算法则需要每一个标签下有训练数据,限制了它们在主题标引上的应用。面向大规模主题词在海量文献上的标引需求,提出一个基于分布式词向量的混合型自动标引方法,利用大规模语料训练的词向量生成同维度的主题词表示向量和文本表示向量,实现主题词与文本语义相似度的计算。基于大规模语料构建主题词与普通词的映射表,使文本向量只和少量的语义强相关主题词向量比较,大大减少了计算量,提高了标引效率。开发的自动标引工具对近亿篇文献进行了主题标引,达到了较高的速度。与结巴关键词的实验对比结果显示,本文方法抽取的主题词与作者关键词重合度较低,且在去除结巴关键词中的非主题词后,取得了比结巴关键词更高的标引准确率;与人工标引的实验对比结果显示,随着人工标引词数量的增加,本文方法的效果、结果与人工标引结果的一致性在不断增加。  相似文献   

10.
海量数据集上基于特征组合的关键词自动抽取   总被引:7,自引:0,他引:7  
关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇.小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及.本文利用现有的信息检索技术,对海量数据集上自动抽取关键词问题进行了研究,给出了一个基于特征组合的关键词自动抽取方法.该方法构造了一个大规模的关键词词典;基于TF× IDF值和其他特征,提出了更有效的关键词权重计算方法;根据关键词本身的特点,对候选关键词进行了后处理,使得抽取的关键词更符合读者的要求.本文的后续实验表明,该方法同基于Bayes和KNN等的机器学习方法相比,性能相当.使用自动评价和人工评价两种方法对抽取的关键词进行了评估.专业编辑对抽取结果的人工评价显示,约95%的自动抽取的关键词可以被专业编辑或者读者接受.  相似文献   

11.
鉴于重要关键词对于文本有着重要的强文本表示功能,关键词抽取和筛选在信息检索、信息抽取和知识挖掘等领域中有着重要的作用。在调研当前关键词抽取的方法后,结合医学领域已有的叙词表和工具以及BM25F加权词频公式提出基于医学文本的重要关键词抽取和筛选的技术方法。该方法主要解决两个关键问题:关键词的识别和抽取、关键词重要性的衡量和筛选。以2001-2007年骨关节炎领域的文献集合为数据来源,对该技术方法进行实践尝试,并验证其实际有效性,为知识挖掘中的重要关键词抽取提供一个行之有效的途径。  相似文献   

12.
[目的/意义]构建关键词热度h值模型,探究近年图书情报领域热点与发展趋势。[方法/过程]基于学者Prathp的z指数模型,对关键词词频和文章被引值进行赋权,引入前人时间加权思想,多维角度归一化处理,计算热度值与年度排名,获得趋势。[结果/结论]比较加权前后绝对词频、z指数和关键词热度h值,排名结果差异明显;热度h值模型可提升热点关键词排名,拉低非热点关键词排名,排名情况验证h值的有效性,效果优良。  相似文献   

13.
自动标引研究的回顾与展望*   总被引:3,自引:0,他引:3  
对自动标引的研究进行总结与回顾。对标引对象进行界定;分析自动标引研究的3个阶段,并列出50年研究历程中的代表性方法;详细描述自动标引研究路线图、并对抽词标引与赋词标引方法进行详细分类;最后指出自动标引中存在的问题,并对今后的自动标引研究和应用方向进行展望。  相似文献   

14.
[目的/意义]为克服关键词绝对词频分析的局限性,以关键词多因素加权及得分排名实现领域热点与趋势探索。[方法/过程]构建年度-关键词频次矩阵,用水平加权和垂直加权处理关键词词频,设计相对词频模型,计算关键词加权综合分值,以获得更有效的关键词排序。[结果/结论]基于关键词加权排序,可以识别量高质优型、量低质优型和突变型关键词,有利于挖掘研究热点和分析趋势。  相似文献   

15.
基于词汇链的应急预案主题抽取方法研究   总被引:1,自引:0,他引:1  
本文针对应急预案自动主题抽取的需求,采用词汇语义相关度计算的方法,构建了一个基于词汇链算法且符合人的主观感受的主题抽取模型.模型根据应急预案文本的特点,运用了自然语言处理技术,改进了原始的词汇链生成算法,提出了一种多因素词语权重算法.通过与人工抽取主题词的实验结果相比较,该主题提取模型在查全率和查准率上都取得了较好的效果.  相似文献   

16.
基于K-近邻方法的科技文献分类   总被引:4,自引:1,他引:3  
鲍文  胡清华  于达仁 《情报学报》2003,22(4):451-456
本文提出了一种在小样本数据下、无需分词处理的科技文献分类器建造方法.分析了科技文献的特点,提出了抽取科技文献的关键词作为分类特征词条,以文献的标题、关键词和摘要作为文档主题信息进行词频统计分析建立分类器.最后分别进行了基于最近邻决策和K-邻近决策的分类效果实验研究,实验证明基于欧氏距离相似性测度和基于余弦相似性测度的文本分类效果并不存在显著的差别,K-邻近决策的分类效果要优于最近邻决策的分类效果.  相似文献   

17.
在智慧政务的应用背景下,利用深度学习的方法对海量的科技政策文本数据进行自动分类,可以降低人工处理的成本,提高政策匹配的效率。利用BERT深度学习模型对科技政策进行自动分类实验,通过TextRank算法和TF-IDF算法提取政策文本关键词,将关键词与政策标题融合后输入BERT模型中以优化实验,并对比不同深度学习模型的分类效果来验证该方法的有效性。结果表明,通过BERT模型,融合标题和TF-IDF政策关键词的分类效果最佳,其准确率可达94.41%,证明利用BERT模型在标题的基础上加入政策关键词能够提高政策文本自动分类的准确率,实现对科技政策文本的有效分类。  相似文献   

18.
中文书目机器自动标引是数字图书馆建设中亟待解决的关键问题之一。本文试图将条件随机场(CRFs)序列标注机器学习算法引入到关键词抽取中,建立面向图书内容、基于字角色标注的中文书目关键词标引模型。将图书内容转化为字序列,进而提出构建关键词角色空间模型和综合利用字序列上下文特征的设计思路。通过实验,从题名和内容提要中分别自动抽取关键词,论证该模型的合理性和实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号