首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
赵月华  朱思成  苏新宁 《情报科学》2021,39(12):165-173
【 目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络 医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路, 并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够 实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的 BERT 模型准确率为 95.91%,F1值为 94.57%,相比于传统机器学习模型和 CNN模型提升分别接近 6%和 4%,表明本文构 建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能 以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价 值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。  相似文献   

2.
鲁国轩  杨冠灿  宋欣 《情报科学》2022,40(9):154-158
【目的/意义】数字人文作为人文社科和计算机技术的跨界学科,在高速发展的同时面临概念界定不明确、 专题期刊缺乏等问题,增加了文献搜集难度。需要构建适合的识别分类模型,形成数字人文专题文献库,助力数字 人文研究。【方法/过程】分析数字人文学科的内涵,归纳数字人文文献特征,在人工识读标注的基础上构建机器学 习模型,实现对数字人文文献的自动识别与分类。【结果/结论】提出一种基于机器学习的数字人文文献识别分类模 型,对图情领域数字人文文献实现了较好的识别效果。【创新/局限】将机器学习算法应用到数字人文文献分类,较 好应对了词汇复杂和数据量较小的问题;进一步研究可使用深度学习等更复杂的模型,并实现不同领域数字人文 文献的多分类。  相似文献   

3.
任妮  鲍彤  沈耕宇  郭婷 《情报科学》2021,39(11):96-102
【 目的/意义】开展面向领域的细粒度命名实体识别研究对于提升文本挖掘精度具有重要的意义,本文以番 茄病虫害命名实体为例,探索采用深度学习技术实现面向领域的细粒度命名实体识别研究方法。【目的/意义】文章 以电子书、论文、网页作为数据源,选择品种、病虫害、症状、时间、部位、防治药剂六类实体进行标注,利用BERT和 CBOW 预训练字向量分别输入 BiLSTM-CRF 模型训练,并在识别后补充规则控制实体的边界。【结果/结论】 BERT预训练的字向量和BiLSTM-CRF结合,在补充规则控制后F值达到了81.03%,优于其它模型,在番茄病虫害 领域的实体识别中具有较好的效果。【创新/局限】BERT预训练的字向量可以有效降低番茄病虫害领域实体因分 词错误带来的影响,针对不同实体的特点,补充规则可以有效控制实体边界,提高识别准确率。但本文的规则补充 仅在测试阶段,并没有加入训练过程,整体的准确率还有待提高。  相似文献   

4.
【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作 用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流 水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列 标注模式和实体关系匹配规则,在预训练语言模型BERT(Bidirectional Encoder Representations from Transformers) 的基础上结合双向门控循环单元 BiGRU(Bidirectional Gated Recurrent Units)与条件随机场 CRF(Conditional Random Field)构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据 进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出 了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关 系的识别。  相似文献   

5.
马达  卢嘉蓉  朱侯 《情报科学》2023,41(2):60-68
【目的/意义】探究针对微博文本的基于深度学习的情绪分类有效方法,研究微博热点事件下用户转发言论的情绪类型与隐私信息传播的关系。【方法/过程】选用BERT、BERT+CNN、BERT+RNN和ERNIE四个深度学习分类模型设置对比实验,在重新构建情绪7分类语料库的基础上验证性能较好的模型。选取4个微博热点案例,从情绪分布、情感词词频、转发时间和转发次数四个方面展开实证分析。【结果/结论】通过实证研究发现,用户在传播隐私信息是急速且短暂的,传播时以“愤怒”和“厌恶”等为代表的消极情绪占主导地位,且会因隐私信息主体的不同而产生情绪类型和表达方式上的差异。【创新/局限】研究了用户在传播隐私信息行为时的情绪特征及二者的联系,为保护社交网络用户隐私信息安全提供有价值的理论和现实依据,但所构建的语料库数据量对于训练一个高准确率的深度学习模型而言还不够,且模型对于反话、反讽等文本的识别效果不佳。  相似文献   

6.
【目的/意义】使用人工或常用软件工具获取本体概念及概念间关系已无法满足自媒体环境下大数据的本 体构建及维护的要求,本文尝试用自动或半自动方式予以实现。【方法/过程】对电子商务领域原始语料进行分句、 分词等预处理,构建领域语料库;使用基于语言学以及统计学的方法提取电子商务领域本体概念,同时提出基于混 合策略的本体概念抽取方法;然后使用基于语言学、聚类的方法提取电商领域本体概念与概念之间存在的分类关 系,使用基于关联规则挖掘的方法抽取其本体概念与概念之间存在的非分类关系。【结果/结论】将文本挖掘与本体 构建结合起来,提出了领域本体概念及概念间关系自动抽取与本体构建方法,实验表明使用本体框架 Jena利用此方 法可以自动构建电子商务领域本体,并可将其应用到通用的语义检索系统中。  相似文献   

7.
【目的/意义】本文希望通过自动化本体构建将非结构化的用户生成内容组织成为语义丰富的本体。【方法/ 过程】综合运用机器学习、自然语言处理等技术,从用户生成内容中抽取本体概念、同义关系及分类关系,形成领域 本体,并且通过京东商城用户评论进行实证。【结果/结论】本文实现了手机本体的自动构建,发现该模型能够达到 较高准确率,消除了大量冗余,更符合用户需求。  相似文献   

8.
范昊  何灏 《情报科学》2022,40(6):90-97
【目的/意义】随着社交媒体的发展,各类新闻数量激增,舆情监测处理越来越重要,高效精确的识别舆情新 闻可以帮助有关部门及时搜集跟踪突发事件信息并处理,减小舆论对社会的影响。本文提出一种融合 BERT、 TEXTCNN、BILSTM的新闻标题文本分类模型,充分考虑词嵌入信息、文本特征和上下文信息,以提高新闻标题类 别识别的准确率。【方法/过程】将使用BERT生成的新闻标题文本向量输入到TEXTCNN提取特征,将TEXTCNN 的结果输入到 BILSTM 捕获新闻标题上下文信息,利用 softmax判断分类结果。【结果/结论】研究表明,本文提出的 融合了基于语言模型的 BERT、基于词向量 TEXTCNN 和基于上下文机制 BILSTM 三种算法的分类模型在准确 率、精确率、召回率和F1值均达到了0.92以上,而且具有良好的泛化能力,优于传统的文本分类模型。【创新/局限】 本文使用BERT进行词嵌入,同时进行特征提取和捕获上下文语义,模型识别新闻类别表现良好,但模型参数较多 向量维度较大对训练设备要求较高,同时数据类别只有10类,未对类别更多或类别更细化的数据进行实验。  相似文献   

9.
[目的/意义]实现对领域概念的自动学习抽取,解决领域本体自动化构建的首要基础任务。[方法/过程]以无监督的学习方法和端到端的识别模式为理论技术基础,首先通过对主流词嵌入模型进行对比分析,设计提出了基于Word2Vec和Skip-Gram的领域文本特征词嵌入模型的自动生成方法;其次研究构建了以IOB格式的标注文本作为输入,基于自注意力机制的BLSTM-CRF领域概念自动抽取模型;最后以资源环境学科领域为例进行了实验研究与评估分析。[结果/结论]模型能够实现对领域概念的自动抽取,对领域新概念或术语的自动识别也具有一定的健壮性。[局限]模型精度尚未达到峰值,有待进一步优化提升。  相似文献   

10.
[目的/意义]从学术共同体的评论性引用视角出发,以引文全文本为基础,结合词频统计、深度学习等方法,探析引文文本中表征突破性评价的文本特征并构建自动识别模型以实现从海量文献中识别潜在突破性文献。[方法/过程]以诺贝尔生理学或医学奖获得者的关键文献以及Science十大科学突破主题的代表文献(医学领域)作为金标准突破性文献集并获取引用语句,对引用语句进行词频统计并结合人工筛选获取表征突破性评价的常用词。对引用语句进行人工标注,利用BERT、BIOBERT模型进行训练形成自动识别模型,并选择癌症领域进行实证分析。[结果/结论]结果表明,学术共同体在评价具有重大突破价值的文献时具有明显的文本特征;相较BERT模型,生物医学语言表示模型BIOBERT对突破性评价引用语句的识别能力明显增强,F1值为0.84。基于引用语句的自动识别模型能够较为精准地识别具有重要学术价值的文献并能在一定程度上实现早期识别和早期评价。  相似文献   

11.
【目的/意义】互联网上的信息资源日益丰富,开放信息源成为一些领域知识获取的重要渠道。本文以中医 领域为例,为向本体和知识图谱的构建提供数据,提出了一种基于开放信息源的知识挖掘方法。【方法/过程】在缺 乏领域训练语料的情况下,先获取一部分语料,使用规则模板、词向量结合词分类的方法获取部分领域实体词,通 过回标文本语料得到训练集,再使用条件随机场进行实体的识别和抽取。【结果/结论】本文提出的规则结合 SVM-CRF实体抽取模型具有较高的有效性和通用性。在所使用的中医实体中,方剂和症型实体的抽取准确率仍 待进一步提升。  相似文献   

12.
叶佳鑫  熊回香  孟璇 《情报科学》2023,41(1):166-173
【目的/意义】通过深度学习方法对图书评论进行细粒度挖掘,并基于挖掘结果优化图书间相似度计算结果。【方法/过程】首先从在线书评网站上采集图书评论,对评论进行词性分析构建属性词表,随后基于属性词表对评论进行类型标注,通过BERT-BiLSTM模型对标注数据进行学习以实现评论自动分类,最后通过BERT对分类后的评论进行向量表示,通过余弦相似度计算评论间的相似度以表征图书相似度。【结果/结论】本文构造的BERT-BiLSTM评论分类模型准确率、召回率和F1值分别达到0.922、0.921和0.921,可以较好地实现评论分类。通过模型将评论划分为文笔、人物、情节、概要、读者态度5种类型来计算图书间相似度可以得到较为契合的相似度结果。【创新/局限】相较于其他类型的评论,通过人物与情节类评论计算图书相似度的效果有待提高。以后可对这两类评论进行更为细粒度的分析。  相似文献   

13.
孙靖超  刘为军 《情报科学》2021,39(7):147-152
【目的/意义】舆情主题识别一直是舆情领域的研究热点,如今已有丰富的研究成果。现有研究对舆情信息 进行表征时多采用了传统的词袋模型、主题模型或词向量模型,只能对词语进行唯一的向量表征且传统模型需对 文本分词,可能会因分词错误、数据稀疏、出现集外词等情况影响识别效果。【方法/过程】本文构建了一种基于多采 样双向编码表示的网络舆情主题识别模型,在训练前无需对文本进行分词,针对文本过长的情况采用头尾结合的 方式进行截断,从字、段、位置三个维度提取特征嵌入,通过自注意力机制进行舆情表征,在训练过程中使用区分性 微调和多采样dropout的方法增强泛化能力,提升识别效果。【结果/结论】实验结果表明构建模型在舆情主题分类任 务中表现良好,可以在不对文本分词的情况下实现对舆情主题的准确识别。【创新/局限】创新之处在于构建了一种 新型的网络主题识别模型,局限之处在于算法复杂,如何进一步调参优化是接下来的研究重点。  相似文献   

14.
【目的/意义】海量科技文献中存在大量潜在“精品”文献,如何识别并利用此类文献是目前较具现实意义的 研究问题。【方法/过程】本文以Web of Science数据库中人工智能领域1990-2010年期间的文献原文及引文数据为 样本,构建该领域文献原文-引文特征向量空间,融合决策树和逻辑回归模型对文献特征向量空间进行模型训练和 潜在“精品”论文识别的测试应用。【结果/结论】实验结果表明,“发表五年后被引量”特征变量的加入能够显著提升 决策树和逻辑回归模型的识别分类效果,使得两类模型的识别准确率分别达到 84%和 89%以上,提升幅度达到 20 多个百分点。逻辑回归模型的识别效果始终优于决策树模型,通过调整两种模型的超参数,能够使得模型获得更 理想的识别效果。此外,早期人工智能领域科学研究仍处于小团队协作阶段,领域文献的基金支持和开放获取程 度较低。【创新/局限】尽管论文创新性引入机器学习方法实现潜在“精品”文献识别模型的建模与应用,然而仍需将 模型拓展到更多学科领域。  相似文献   

15.
郝彦辉  王曦  陈铎 《情报科学》2021,39(8):78-85
【目的/意义】教育招生考试备受社会各界关注,极易触发舆情事件。及时监测并准确研判相关网络信息传 播发展态势,发现潜在舆情并处置应对,对于保障考试安全和维护学校声誉具有重要意义。【方法/过程】采集研究 生复试期间主流媒体社交平台数据,将BERT语言训练模型同BiLSTM相结合,构建深度神经网络模型,对文本的 情感极性进行分析。用TextRank算法提取不同情感极性类属文本的热门主题词,监测潜在舆情并提出管理建议。 【结果/结论】实证结果表明,该模型能够有效挖掘不同情感极性下的热门主题信息,从而发现潜在隐患以及可能发 生的舆情焦点,为高校网络舆情管控提供了方法参考和实践依据。【创新/局限】与传统方法相比,基于BERT的预训 练语言模型可有效解决因数据量少而导致模型无法准确表示不同语句之间复杂关系的局限性,同时BERT可对文 本进行双向建模,捕获不同句子之间的关系特点,提升对文本情感主题挖掘的准确性。  相似文献   

16.
闫盛枫 《情报科学》2021,39(9):146-154
【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出 一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时 序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强 其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法 对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具 有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提 升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单 元和语法结构。  相似文献   

17.
【目的/意义】探讨一种基于已有资源的本体构建新方法。【方法/过程】以《医学主题词表》为例,在概述叙 词表内容结构之后,详尽阐述基于叙词表等级结构及其语义关系的本体构建原则及整个过程,并开发自动处理工 具实现批量叙词表数据的本体构建。【结果/结论】通过收集大规模实验数据进行验证,表明本研究为复用叙词表资 源的本体构建,以及实现不同类型知识组织系统之间的语义共享提供了一种新思路。  相似文献   

18.
金占勇  田亚鹏  白莽 《情报科学》2019,37(5):142-147
【目的/意义】为推动深度学习在网络舆情管理中的应用,提高突发灾害事件网络舆情情感识别效率。【方 法/过程】基于OCC模型建立了突发自然灾害网络舆情情感规则,并由word2vec构建文本向量作为长短期记忆网 络(Long-short term memory,LSTM)的初始输入,对其训练得到突发灾害事件网络舆情多情感识别模型。【结果/结 论】通过对比试验发现,OCC情感规则能够提升情感识别模型的正确率,基于LSTM和word2vec的突发灾害事件 网络舆情情感识别模型在情感识别效果上优于TF-IDF文本向量化方法以及基于卷积神经网络(Convolutional neural network,CNN)和传统的机器学习方式(Support vector machine,SVM)的分类算法结果。  相似文献   

19.
龚花萍  高洪新 《情报科学》2017,35(10):99-102
【目的/意义】基于领域本体模型的情景分析法可以从竞争环境、竞争对手、竞争策略三方面解决中小企业 竞争情报的难题。【方法/过程】以描述逻辑、语义推理和情景分析法为理论基础,设计基于领域本体模型的中小企业 竞争情报系统架构。在分析架构机理的基础上,利用本体工具以及多种推理优化规则,构建情报知识库、决策习惯 本体库以及推理模块。【结果/结论】可以实施智能推荐服务,为中小企业竞争情报工作起到显著的决策辅助作用。  相似文献   

20.
林萍  吕健超 《情报科学》2023,41(2):135-142
【目的/意义】提出基于Stacking集成学习的问答信息采纳行为识别策略,促进在线健康社区问答的精准化推送、助推数字化医疗服务高质量发展。【方法/过程】构建以集成学习方法和非集成学习方法为基学习器、以逻辑回归算法(LR)为元学习器的Stacking集成学习模型,比较单预测模型、同类预测模型组合、不同类预测模型组合的Stacking集成学习模型预测精度,选取“寻医问药”平台的慢性病问答构建数据集验证模型的优越性,并选取“快速问医生有问必答120”平台数据验证模型的可移植性。【结果/结论】Stacking集成模型相比于单预测模型能够更精准识别被采纳问答信息,模型具有较强的泛化性,可以适用于不同的在线健康社区。【创新/局限】本文基于Stacking集成思想构建两阶段预测模型,并借助机器学习构建最佳预测模型组合,显著提高在线健康社区问答信息采纳识别精度,但伴随问答信息积累,在线健康社区问答模式不断发展变化,考虑结合历史数据和每日更新数据的动态预测方法是未来研究工作重点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号