首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 51 毫秒
1.
刘家益  邹益民 《情报科学》2017,35(7):154-161
【目的/意义】文本自动摘要能快速获取文本主要内容,极大提高信息使用效率,帮助人们从信息海洋中解 放出来。随着互联网大数据日益深入发展,文本信息的数量已经远远超出人工处理极限,文本自动摘要研究显得 越发迫切和重要。【方法/内容】本文通过对过去70年国内外文本自动摘要经典文献重要文献进行收集、整理和分 析,总结归纳出六类主要文本自动摘要方法及其理念和具体做法,对比评析其优势不足,并对未来研究方向进行展 望,绘制出该研究领域的一个发展全景图。【结果/结论】自动摘要方法所使用的特征经历了由简单到复杂、由个体 到联系、由表层到深层的发展路径;如何深入利用深度学习方法,以及如何将传统方法与深度学习方法更好结合起 来将是下一步研究的热点和重点。  相似文献   

2.
徐彤阳  尹凯 《情报科学》2019,37(10):13-19
【目的/意义】引入人工智能领域中的深度学习方法来解决数字图书馆中传统文本分类的缺陷,这既是人工 智能领域研究的重点,也是图书馆领域关注的热点问题。【方法/过程】在对数字图书馆传统文本分类进行系统梳理 的基础上,提出基于深度学习的数字图书馆文本分类模型,利用词向量的方法对文本特征进行表示,采用深度学习 模型中的卷积神经网络提取文本信息的本质特征,并进行了实验验证。【结果/结论】实验测试表明,基于深度学习 的文本分类模型可以有效地提高数字图书馆文本分类的准确率和召回率,不仅可以提高数字图书馆内部业务的智 能化程度,还可以提高数字图书馆信息服务的效率和质量。  相似文献   

3.
为及时有效地识别潜在技术机会,采用文本挖掘和异常值检测的方法,提出一种基于专利文本的技术机会识别方法.首先采用文本表示模型Doc2vec技术对专利摘要进行建模,以更深层表征文本语义信息;然后利用基于密度的离群值检测算法,识别出具有潜在技术机会的专利方向;最后以深度学习领域潜在技术识别为例,构建专利检索式并收集458条专利文献作为数据集.实证结果总结出4类主题共10个潜在的技术机会,验证了该基于专利的技术机会识别方法的有效性,可为企业相应技术应用、研发和创新提供参考.  相似文献   

4.
【目的/意义】深度学习是近几年来人工智能领域的研究热点之一,了解深度学习在信息组织与检索方面的研究现状,能为信息组织与检索的深入研究提供参考和借鉴。【方法/内容】通过对国内基于深度学习的信息组织与检索方向的相关文献进行梳理,剖析深度学习相关模型、阐述深度学习在信息组织与检索中的研究热点主题,并结合深度学习技术的特点和信息组织与检索的研究内容,对深度学习在信息组织与检索方向的应用前景进行预测。【结果/结论】研究表明,当前深度学习在信息组织与检索中的研究热点主要集中在智能信息抽取、自动文本分类、情感分析和文本聚类这四个主题,预测未来深度学习在信息组织与检索方向会朝着对异构信息处理、智能信息检索、个性化信息推荐等方向发展。  相似文献   

5.
自动文本摘要技术综述   总被引:3,自引:0,他引:3  
随着互联网上信息爆炸式的增长,如何在互联网上有效地获取所需信息成为当前情报科学领域一个迫切需要解决的问题.为了更好地浏览和吸收互联网上的海量信息,自动文本摘要技术对文档进行压缩,压缩后的表示能够覆盖原文的所有主题且不重复.文章对目前单文档摘要和多文档摘要领域的一些最相关技术和方法做一个较为全面的综述性介绍,对该领域当前的一些最新发展趋势,如基于图排序的摘要方法也进行了简要的探讨.  相似文献   

6.
[目的/意义]实现对领域概念的自动学习抽取,解决领域本体自动化构建的首要基础任务。[方法/过程]以无监督的学习方法和端到端的识别模式为理论技术基础,首先通过对主流词嵌入模型进行对比分析,设计提出了基于Word2Vec和Skip-Gram的领域文本特征词嵌入模型的自动生成方法;其次研究构建了以IOB格式的标注文本作为输入,基于自注意力机制的BLSTM-CRF领域概念自动抽取模型;最后以资源环境学科领域为例进行了实验研究与评估分析。[结果/结论]模型能够实现对领域概念的自动抽取,对领域新概念或术语的自动识别也具有一定的健壮性。[局限]模型精度尚未达到峰值,有待进一步优化提升。  相似文献   

7.
自动文摘综述   总被引:2,自引:0,他引:2  
刘挺  吴岩  王开铸 《情报科学》1998,16(1):63-69
本文回顾了自动文摘技术的发展历史,介绍了三种主要的文摘方法,即基于文本物理信息分析的方法、基于自然语言理解的方法以及基于文本结构分析的方法。同时指出了自动文摘技术目前存在的问题,包括摘要内容冗余的问题、摘要的语言缺乏连贯性的问题等,并探讨了文摘技术未来的发展方向。  相似文献   

8.
根据领域文本数据自身的特点,首先对领域文本样本建立文本向量空间模型,使用词频与DF相结合的方法,缩小特征词候选集,再依据基于图的半监督学习算法,迭代地学习一个基于领域特征关联度的图的半监督分类器,利用少量的标记数据,获得更好的领域文本特征信息抽取。在机械制造等多个领域的语料集上进行测试,对实验结果进行分析,实验证明,该方法是可行的。  相似文献   

9.
【目的/意义】文本情感分类是近年来情报学领域的研究热点之一。已有研究大多关注针对目标文本的单 一情感分类。本文旨在探索基于深度学习的电商评论信息多刻面情感分类方法。【方法/过程】提出一种基于Atten⁃ tion-BiGRU-CNN的多刻面情感分类模型,通过BiGRU和CNN获取上下文信息和局部特征,利用Attention机制 优化隐层权重,以深度挖掘文本内隐语义和有效刻画多刻面情感。【结果/结论】在中文电商评论信息语料上的实验 表明,相较于其他神经网络模型,本文方法可有效提高多刻面情感分类的准确度。【创新/局限】进一步丰富多刻面 情感分类的方法途径,为深度挖掘电商评论信息以及优化产品和营销策略提供参考。本文语料主要基于单一类别 电商评论信息,聚焦可归纳刻面的情感分类,进一步的研究可面向类别多元化、需通过深度学习提取刻面信息的更 大规模语料展开。  相似文献   

10.
为了快速有效地自动处理中文Web文本,提出了一种基于领域本体的主题特征抽取方法.该方法针对Web文本特点,介绍了一种领域词典的半自动化构建方法.基于领域词典切分文本,通过对词条的主题映射,采用领域本体的概念表示文本向量,从而有效地降低文本特征向量的维数,提高主题抽取的质量.考虑文本信息的不同位置与频率,计算主题特征的权值,并且基于领域本体的结构,对主题概念的权值进行调整和排序.实例验证了该方法的有效性.  相似文献   

11.
为提高电网缺陷文本的感知深度与泛在性,改善典型仿生智能算法处理低价值密度、多维波动非线性、动态迭代更新属性下的电网海量文本缺陷特征感知问题时存在的异构泛在性较差、动态感知策略同步效能滞后、缺陷文本划分密集且生成困难、样本效率与迭代次数失衡、异构数据输入下的模型性能下降严重等固有弊端,提出了一种基于改进深度强化学习算法的电网缺陷文本挖掘模型。借助国家电网公司全局数据中心,构建非结构化的电网缺陷文本数据池,引入深度学习多维感知电网缺陷文本特征,实现缺陷文本的语义框架自构建,引入强化学习实现缺陷文本自主识别决策,并把当前收益(语义槽)和未来收益反馈给环境(隐性知识)模拟策略网络,在有限马尔科夫决策过程中引入多重Q网络机制实现知识地图的自生成,进而实现本体字典自动完善。以南方电网贵州电网有限责任公司数据管控中心为效能评价载体,基于谷歌的Tensorflow 1.2. 1和Open AI的Gym 0.9. 2环境开发了可视化验证环境并对模型进行了实证分析,仿真验证结果表明本文所提模型可以在较短的时间内处理低价值密度、多维波动非线性、动态迭代更新属性下的电网海量文本缺陷特征感知问题,在深度泛在性、感知自主性、决策准确性、异构数据输入下的模型容错性等方面具有明显优势。  相似文献   

12.
研究了一种基于密度聚类模式下的依文本、段落、语句逐层分析的文本摘要自动生成方法。该聚类方法对噪声无敏感性,该层次分析方法对于长篇幅文本有较强的适应能力。同时,对特征向量的选取分别提出了一种线性及非线性加权模型。  相似文献   

13.
提出一种基于文本聚类的开放式信息自动归类方法.它的主要特点是:适合自动归类不断增量的文档信息;不需要人为干预,完全靠自主学习的方式来确定各个主题的内涵范围:类别在聚类过程中动态产生.实验证明,该方法能实现增量信息的自动归类,且从评价函数的评价结果看,归类效果良好.  相似文献   

14.
基于BERT的领域本体分类关系自动识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
【目的/意义】实现对领域本体分类关系的自动学习识别,解决领域本体知识框架结构体系的自动化构建问 题。【方法/过程】通过对领域本体分类关系自动识别的国内外研究现状及存在问题进行分析总结,以当前开源的先 进的深度学习文本预训练模型BERT为基础,研究构建了基于BERT的领域本体分类关系自动识别模型,并以资源 环境学科领域为例进行了实验研究和评估分析。【结果/结论】基于BERT构建的分类模型能够实现对领域本体分类 关系的自动识别,识别方法和流程具有极大地通用性和可移植性,识别精度比传统方法有了较大提升。【创新/局 限】微调与泛化了BERT,提高了领域本体分类关系识别模型的通用性和精度。但由于受分类标注语料的质量限 制,模型精度尚未达到峰值,有待进一步优化提升。  相似文献   

15.
[目的/意义]为帮助用户在拥有海量文本信息的问答社区高效率、高质量定位到符合自身需求的信息。[方法/过程]本文提出基于主题特征的问答文本摘要生成模型,该模型融合Word2Vec和SLDA算法多层次表达问答文本语义特征,而后基于图排序的思想,结合MRR冗余控制算法与文本句特征标签,调整句子权重,高效筛选出贴合问题标签的摘要内容。[结果/结论]本文对知乎问答社区多个问题下的问答文本数据进行验证,结果证明该模型具有较高的可行性和有效性。但本文选取了500份回答文本数据进行实证,未来可进一步扩大数据量开展更为充分的验证。  相似文献   

16.
【目的/意义】为在线医疗问诊平台中的医生自动生成高质量标签,更好地服务于对医生资源的分类、检索和管理。【方法/过程】基于在线问诊文本信息,提出了结合时间周期特征与文本主题特征的医生标签自动生成算法。首先根据医生相关文本信息提取关键词生成候选标签,然后从患者问题文本和医生回答文本两个方面进行LDA主题模型训练,按时间周期挖掘出问题文本和回答文本的主题特征,对候选标签进行质量控制;最后经标签加权混合后得到最终的医生标签。【结果/结论】实验结果表明,该标签自动生成算法能够反映出医生标签生成的动态性,能够准确生成符合医生专业知识特征的高质量标签,具有较好的标签生成效果。  相似文献   

17.
[目的/意义]为了解决互联网时代信息过载的问题,尝试从海量的新闻报道中自动抽取新闻事件,并按照事件发生的时间进行排序,向用户展示结果。[方法/过程]利用网络爬虫自动获取新闻文本,使用中心事件句判定和RoBERTa+MRC的方法进行实体抽取,从非结构化文本中抽取语义信息并生成结构化的新闻摘要。在此基础上,对摘要中的时间信息进行标准化处理,并按照时间顺序生成新闻时间线。[结果/结论]实验结果表明,中心事件句判定和RoBERTa+MRC相较于传统方法有更好的事件抽取效果,文章设计的新闻时间线展示系统能够帮助用户了解新闻事件的发展脉络,解释新闻主题的事件走向与演化规律。  相似文献   

18.
基于UG软件,以六方块多轴数控加工为例,讲解了UG自动生成加工程序操作步骤,包括毛坯及模型选择、刀具的创建及工序的创建,总结了使用"型腔铣"、"底壁铣"及"深度轮廓铣"加工策略的注意事项,对多轴数控加工自动编程初学者的学习和提高具有一定指导借鉴意义。  相似文献   

19.
[目的/意义]实体语义关系分类是信息抽取重要任务之一,将非结构化文本转化成结构化知识,是构建领域本体、知识图谱、开发问答系统、信息检索系统的基础工作。[方法/过程]本文详细梳理了实体语义关系分类的发展历程,从技术方法、应用领域两方面回顾和总结了近5年国内外的最新研究成果,并指出了研究的不足及未来的研究方向。[结果/结论]热门的深度学习方法抛弃了传统浅层机器学习方法繁琐的特征工程,自动学习文本特征,实验发现,在神经网络模型中融入词法、句法特征、引入注意力机制能有效提升关系分类性能。  相似文献   

20.
[研究目的]随着网络技术的长足发展,基于互联网的开源情报更加受到情报分析领域的重视,自动化、高效的文本情报智能分析处理技术是海量开源情报数据处理的必要手段。[研究方法]从互联网文本情报智能分析处理的数据获取、关键信息抽取及智能分析三个核心处理流程着手,对互联网开源文本情报智能分析中存在的问题和研究进展进行了总结和分析,阐述了解决问题近年来采用的新方法新思路。[研究结论]基于机器学习和深度学习的结合使用,使得互联网开源文本情报智能分析技术越来越走向实用,但如何解决特征设计和样本标注量的问题值得进一步研究,同时由于自然语言理解本身的复杂性,对文本信息的深层次理解仍然极具挑战。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号