首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 673 毫秒
1.
【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作 用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流 水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列 标注模式和实体关系匹配规则,在预训练语言模型BERT(Bidirectional Encoder Representations from Transformers) 的基础上结合双向门控循环单元 BiGRU(Bidirectional Gated Recurrent Units)与条件随机场 CRF(Conditional Random Field)构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据 进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出 了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关 系的识别。  相似文献   

2.
任妮  鲍彤  沈耕宇  郭婷 《情报科学》2021,39(11):96-102
【 目的/意义】开展面向领域的细粒度命名实体识别研究对于提升文本挖掘精度具有重要的意义,本文以番 茄病虫害命名实体为例,探索采用深度学习技术实现面向领域的细粒度命名实体识别研究方法。【目的/意义】文章 以电子书、论文、网页作为数据源,选择品种、病虫害、症状、时间、部位、防治药剂六类实体进行标注,利用BERT和 CBOW 预训练字向量分别输入 BiLSTM-CRF 模型训练,并在识别后补充规则控制实体的边界。【结果/结论】 BERT预训练的字向量和BiLSTM-CRF结合,在补充规则控制后F值达到了81.03%,优于其它模型,在番茄病虫害 领域的实体识别中具有较好的效果。【创新/局限】BERT预训练的字向量可以有效降低番茄病虫害领域实体因分 词错误带来的影响,针对不同实体的特点,补充规则可以有效控制实体边界,提高识别准确率。但本文的规则补充 仅在测试阶段,并没有加入训练过程,整体的准确率还有待提高。  相似文献   

3.
基于BERT的领域本体分类关系自动识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
【目的/意义】实现对领域本体分类关系的自动学习识别,解决领域本体知识框架结构体系的自动化构建问 题。【方法/过程】通过对领域本体分类关系自动识别的国内外研究现状及存在问题进行分析总结,以当前开源的先 进的深度学习文本预训练模型BERT为基础,研究构建了基于BERT的领域本体分类关系自动识别模型,并以资源 环境学科领域为例进行了实验研究和评估分析。【结果/结论】基于BERT构建的分类模型能够实现对领域本体分类 关系的自动识别,识别方法和流程具有极大地通用性和可移植性,识别精度比传统方法有了较大提升。【创新/局 限】微调与泛化了BERT,提高了领域本体分类关系识别模型的通用性和精度。但由于受分类标注语料的质量限 制,模型精度尚未达到峰值,有待进一步优化提升。  相似文献   

4.
[目的/意义]为了帮助情报学学科背景的就业人员掌握市场对情报学人才的具体需要,为情报学的教育者拟定情报学的教育体系和人才培养的目标提供指导。[方法/过程]采集国内各大招聘网站情报学相关职位招聘公告,构建情报学招聘语料库,基于CRF机器学习模型和Bi-LSTM-CRF、BERT、BERT-Bi-LSTM-CRF深度学习模型,从语料库中抽取5类情报学招聘实体进行挖掘分析。[结果/结论]通过在已有2000篇经过标注的职位招聘公告语料库上开展情报学招聘实体自动抽取对比实验,识别效果最佳的CRF模型的整体F值为85.07%,其中对"专业要求"实体的识别F值达到了91.67%。BERT模型在"专业要求"实体识别任务中更是取得了92.10%的F值。使用CRF模型对全部符合要求的5287篇招聘公告进行实体抽取,构建了情报学招聘实体社会网络,并通过信息计量分析与社会网络分析的方式挖掘隐含知识。  相似文献   

5.
郝彦辉  王曦  陈铎 《情报科学》2021,39(8):78-85
【目的/意义】教育招生考试备受社会各界关注,极易触发舆情事件。及时监测并准确研判相关网络信息传 播发展态势,发现潜在舆情并处置应对,对于保障考试安全和维护学校声誉具有重要意义。【方法/过程】采集研究 生复试期间主流媒体社交平台数据,将BERT语言训练模型同BiLSTM相结合,构建深度神经网络模型,对文本的 情感极性进行分析。用TextRank算法提取不同情感极性类属文本的热门主题词,监测潜在舆情并提出管理建议。 【结果/结论】实证结果表明,该模型能够有效挖掘不同情感极性下的热门主题信息,从而发现潜在隐患以及可能发 生的舆情焦点,为高校网络舆情管控提供了方法参考和实践依据。【创新/局限】与传统方法相比,基于BERT的预训 练语言模型可有效解决因数据量少而导致模型无法准确表示不同语句之间复杂关系的局限性,同时BERT可对文 本进行双向建模,捕获不同句子之间的关系特点,提升对文本情感主题挖掘的准确性。  相似文献   

6.
马达  卢嘉蓉  朱侯 《情报科学》2023,41(2):60-68
【目的/意义】探究针对微博文本的基于深度学习的情绪分类有效方法,研究微博热点事件下用户转发言论的情绪类型与隐私信息传播的关系。【方法/过程】选用BERT、BERT+CNN、BERT+RNN和ERNIE四个深度学习分类模型设置对比实验,在重新构建情绪7分类语料库的基础上验证性能较好的模型。选取4个微博热点案例,从情绪分布、情感词词频、转发时间和转发次数四个方面展开实证分析。【结果/结论】通过实证研究发现,用户在传播隐私信息是急速且短暂的,传播时以“愤怒”和“厌恶”等为代表的消极情绪占主导地位,且会因隐私信息主体的不同而产生情绪类型和表达方式上的差异。【创新/局限】研究了用户在传播隐私信息行为时的情绪特征及二者的联系,为保护社交网络用户隐私信息安全提供有价值的理论和现实依据,但所构建的语料库数据量对于训练一个高准确率的深度学习模型而言还不够,且模型对于反话、反讽等文本的识别效果不佳。  相似文献   

7.
【目的/意义】学术论文的结构功能是学术论文篇章结构和语义内容的集中体现,目前针对学术论文结构功 能的研究主要集中在对学术论文不同层次的识别以及从学科差异性视角探讨模型算法的适用性两方面,缺少模 型、学科、层次之间内在联系的比较研究。【方法/过程】选择中医学、图书情报、计算机、环境科学、植物学等学科中 文权威刊物发表的学术论文作为实验语料集,在引入CNN、LSTM、BERT等深度学习模型的基础上,分别从句子、 段落、章节内容等层次对学术论文进行结构功能识别。【结果/结论】实验结果表明,BERT模型对于不同学科学术论 文以及学术论文的不同层次的结构功能识别效果最优,各个模型对于不同学科学术论文篇章内容层次的识别效果 均最优,中医学较之其他学科的学术论文结构功能识别效果最优。此外,利用混淆矩阵给出不同学科学术论文结 构功能误识的具体情形并分析了误识原因。【创新/局限】本文研究为学术论文结构功能识别研究提供了第一手的 实证资料。  相似文献   

8.
范昊  何灏 《情报科学》2022,40(6):90-97
【目的/意义】随着社交媒体的发展,各类新闻数量激增,舆情监测处理越来越重要,高效精确的识别舆情新 闻可以帮助有关部门及时搜集跟踪突发事件信息并处理,减小舆论对社会的影响。本文提出一种融合 BERT、 TEXTCNN、BILSTM的新闻标题文本分类模型,充分考虑词嵌入信息、文本特征和上下文信息,以提高新闻标题类 别识别的准确率。【方法/过程】将使用BERT生成的新闻标题文本向量输入到TEXTCNN提取特征,将TEXTCNN 的结果输入到 BILSTM 捕获新闻标题上下文信息,利用 softmax判断分类结果。【结果/结论】研究表明,本文提出的 融合了基于语言模型的 BERT、基于词向量 TEXTCNN 和基于上下文机制 BILSTM 三种算法的分类模型在准确 率、精确率、召回率和F1值均达到了0.92以上,而且具有良好的泛化能力,优于传统的文本分类模型。【创新/局限】 本文使用BERT进行词嵌入,同时进行特征提取和捕获上下文语义,模型识别新闻类别表现良好,但模型参数较多 向量维度较大对训练设备要求较高,同时数据类别只有10类,未对类别更多或类别更细化的数据进行实验。  相似文献   

9.
谭荧  唐亦非 《情报科学》2020,38(4):23-27
【目的/意义】将知识抽取的粒度细化到知识构成的最小单元--知识元,能提高知识获取的效率和精准度。【方法/过程】本文利用命名实体识别和事件抽取技术,探索了在科学文献中自动抽取事实知识元的方法。【结果/结论】实验结果表明,该方法能有效识别科学文献中的事实知识元,自动抽取效果出色。  相似文献   

10.
叶佳鑫  熊回香  孟璇 《情报科学》2023,41(1):166-173
【目的/意义】通过深度学习方法对图书评论进行细粒度挖掘,并基于挖掘结果优化图书间相似度计算结果。【方法/过程】首先从在线书评网站上采集图书评论,对评论进行词性分析构建属性词表,随后基于属性词表对评论进行类型标注,通过BERT-BiLSTM模型对标注数据进行学习以实现评论自动分类,最后通过BERT对分类后的评论进行向量表示,通过余弦相似度计算评论间的相似度以表征图书相似度。【结果/结论】本文构造的BERT-BiLSTM评论分类模型准确率、召回率和F1值分别达到0.922、0.921和0.921,可以较好地实现评论分类。通过模型将评论划分为文笔、人物、情节、概要、读者态度5种类型来计算图书间相似度可以得到较为契合的相似度结果。【创新/局限】相较于其他类型的评论,通过人物与情节类评论计算图书相似度的效果有待提高。以后可对这两类评论进行更为细粒度的分析。  相似文献   

11.
【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分, 为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇 章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者 用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度 矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层 次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】 本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标 签确定的方法比较简单,可以进一步探究。  相似文献   

12.
赵月华  朱思成  苏新宁 《情报科学》2021,39(12):165-173
【 目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络 医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路, 并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够 实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的 BERT 模型准确率为 95.91%,F1值为 94.57%,相比于传统机器学习模型和 CNN模型提升分别接近 6%和 4%,表明本文构 建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能 以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价 值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。  相似文献   

13.
【目的/意义】在大数据时代,突发公共卫生事件风险情报工作是突发公共卫生事件风险防控工作必不可少 的支撑。【方法/过程】首先,界定突发公共卫生事件、突发公共卫生事件风险及突发公共卫生事件风险情报3个基本 概念。其次,概述大数据环境下的突发公共卫生事件风险情报工作。最后,结合实际工作,从理论层面出发,提出 大数据环境下的突发公共卫生事件风险情报工作模型。【结果/结论】大数据环境下突发公共卫生事件风险情报工 作是大数据驱动的,是面向突发公共卫生事件防控工作的。【创新/局限】构建了大数据环境下的突发公共卫生事件 风险情报工作模型,可为大数据时代的突发公共卫生事件风险情报工作提供理论依据和方法指导,但由于本文未 结合实际案例对理论模型进行验证,故存在一定的局限性。  相似文献   

14.
【目的/意义】为准确抽取科技文献中的方法知识元,实现科技文献更细粒度知识组织和检索。【方法/过程】 本研究提出一种基于规则的方法知识元抽取方法,该方法主要分为两个阶段:方法知识元初始描述规则半自动化 识别阶段和方法知识元及其描述规则自动化抽取和更新阶段。第一阶段根据方法知识元的特征,以人工—机器相 结合的方法识别方法知识元的组成维度及初始描述规则。第二阶段依据第一阶段识别的方法知识元初始描述规 则,自动从科技文献中提取方法知识元,并基于PreFixSpan算法从新识别的方法知识元中挖掘出新的方法知识元描 述规则,以实现方法知识元及其描述规则的动态更新。【结果/结论】在对16篇科技文献的初步评估中,实验结果P、 R以及F值分别为0.71、0.80和0.73(均>0.5)表明该方法的可行性和有效性,该抽取方法对更细粒度的知识组织和 检索也有一定借鉴作用。【创新/局限】方法的局限性在于需要一定的人工参与方法知识元描述规则的提取。  相似文献   

15.
刘振 《情报科学》2018,36(9):115-117
【目的/意义】为了帮助科研人员从海量信息中发现热点和重大研究进展,抽取出有用的事件信息。【方法/ 过程】采用条件随机场方法和语义角色标注技术,构建了模型进行训练和学习。【结果/结论】提出了科技事件抽取 框架,实现了科技事件抽取系统,取得了一定的抽取效果,该系统的可扩展性和可移植性有待提高。  相似文献   

16.
[目的/意义]针对在线医疗社区问答文本复杂程度高、结构化程度低的特点,结合卷积神经网络(CNN)和双向长短记忆神经网络(BiLSTM)两种深度学习模型以及条件随机场(CRF)模型,提出一套适用于在线医疗问答文本的实体识别方法并进行验证。 [过程/方法] 将问答文本进行清洗和BIO标注后,分别用CNN和BiLSTM进行字级别的特征抽取,将两种模型抽取到的特征进行融合,后放入CRF中训练出实体预测模型,再将问答文本放入训练好的模型中得到最终的实体识别结果。[结果/结论]在所选取的乳腺癌医疗社区问答文本数据集上,所提出的方法结果优于其他模型,且识别准确率达到92.3%,召回率达到89.3%,F值达到90.8%。  相似文献   

17.
【目的/意义】从海量论文元数据中抽取算法术语并构建它们之间的创新演化关系,有利于对算法的有效管 理和运用,以帮助科研工作者提升研究效率、采纳前沿成果。【方法/过程】首先,以GAN算法论文摘要为语料,通过 人工标注与规则抽取相结合的方式进行算法术语标注,并利用BERT-BiLSTM-CRF模型实现算法术语的自动抽 取。然后,将建立的模型应用于LDA算法论文的被引文献元数据中抽取算法术语,依据规则判断和引文关系,从被 引内容中抽取LDA算法的创新演化路径并构建。【结果/结论】以GAN论文为实例的算法术语实验中,精确率、召回 率与F1分数分别达到了0.81、0.63与0.71,并应用关系抽取方法成功构建了LDA算法的创新演化路径,该方法可以 有效推动算法进化网络构建和算法检索与追踪等方面的工作,丰富创新扩散理论的相关研究。【创新/局限】拓展了 命名实体识别技术的应用领域,为计算机算法管理提供了良好的思路。后续可优化创新演化路径的构建方法。  相似文献   

18.
[目的/意义]微博作为一种重要的信息传播载体,在疫情信息发布与传播中发挥着重要作用。深入分析疫情信息中蕴含的疫情事件及其对网民情绪的影响,有助于各级政府准确掌握网络舆论情况,科学高效地做好防控宣传和舆情引导工作。[方法/过程]以新冠肺炎疫情相关的微博新闻及其评论作为研究对象,利用条件随机场(Conditional Random Field,CRF)模型从微博新闻中抽取疫情事件并建立疫情事件画像;在情感词典的基础上,引入双向长短期记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)模型建立网民情绪画像;利用基于自注意力机制的Bi-LSTM模型对疫情事件与网民情绪进行关联分析。[结果/结论]真实语料集上的实验结果表明,围绕捐资、防控、临床和英雄等主题,CRF模型疫情事件抽取的F值均达到73%以上,Bi-LSTM模型网民情绪识别的F值均在70%以上,基于注意力机制的Bi-LSTM模型给出的网民情绪分布基本符合疫情发展态势。  相似文献   

19.
【目的/意义】本文提出了借助知识图谱的知识互联和可视化分析等功能,为公共危机事件智能治理提供知 识支撑的观点。【方法/过程】以“港独”为例,从新华网、人民网、中国新闻网等“港独”新闻语料中抽取实体,构建公 共危机事件知识图谱模型。从知识图谱本体构建和实体数据填充两个方面,对“港独”知识图谱的实体抽取、关系 抽取、知识融合、知识加工和知识推理等构建环节进行重点论述和实践,最后,利用Neo4j数据库实现知识存储,生 成的“港独”知识图谱。【结果/结论】通过Cypher语句对“港独”知识图谱进行查询,能够呈现可视化语义网结构图, 利于知识隐重发现。【创新/局限】本文的创新之处在于把知识图谱技术应用于公共危机事件治理中,为其智能查 询和决策分析提供数据支持。在今后实践中,数据源的选取不必局限于网络新闻语料,还可以适当对“港独”人员 的微博、微信、论坛中的信息进行采集和抽取,以此扩大知识关联,从而更为全面、高效地进行公共危机事件智能 治理。  相似文献   

20.
胡漠  张蕴潮 《情报科学》2023,(11):111-119+161
【目的/意义】突发公共事件短视频舆情的衰退受到多要素的共同影响,识别出对突发公共事件短视频舆情衰退起到关键影响作用的要素,有助于相关主体提高研判突发公共事件短视频舆情衰退所处进程的效率,以更少的投入快速准确地掌握突发公共事件短视频舆情衰退的演化进程。【方法/过程】本文采用元人种志方法对突发公共事件短视频舆情衰退的相关原始研究进行收集、转译与集成,得到突发公共事件短视频舆情衰退的影响要素集;进而采用模糊集理论——DEMATEL方法,通过对影响要素集中的各个影响要素的原因度、中心度、影响度与被影响度的计算与排序,识别出对突发公共事件短视频舆情衰退具有关键影响作用的要素;最后,根据识别出的关键影响要素,有针对性地提出引导突发公共事件短视频舆情衰退的策略。【结果/结论】研究结果表明,突发公共事件短视频舆情衰退影响要素集中共包含17个影响要素,并从中识别出了8个关键影响要素。【创新/局限】对突发公共事件短视频舆情衰退的关键影响要素的作用强度的研究有待后续进一步深入。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号