首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 261 毫秒
1.
赵月华  朱思成  苏新宁 《情报科学》2021,39(12):165-173
【 目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络 医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路, 并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够 实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的 BERT 模型准确率为 95.91%,F1值为 94.57%,相比于传统机器学习模型和 CNN模型提升分别接近 6%和 4%,表明本文构 建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能 以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价 值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。  相似文献   

2.
柯佳 《情报科学》2021,39(10):165-169
【目的/意义】实体关系抽取是构建领域本体、知识图谱、开发问答系统的基础工作。远程监督方法将大规 模非结构化文本与已有的知识库实体对齐,自动标注训练样本,解决了有监督机器学习方法人工标注训练语料耗 时费力的问题,但也带来了数据噪声。【方法/过程】本文详细梳理了近些年远程监督结合深度学习技术,降低训练 样本噪声,提升实体关系抽取性能的方法。【结果/结论】卷积神经网络能更好的捕获句子局部、关键特征、长短时记 忆网络能更好的处理句子实体对远距离依赖关系,模型自动抽取句子词法、句法特征,注意力机制给予句子关键上 下文、单词更大的权重,在神经网络模型中融入先验知识能丰富句子实体对的语义信息,显著提升关系抽取性能。 【创新/局限】下一步的研究应考虑实体对重叠关系、实体对长尾语义关系的处理方法,更加全面的解决实体对关系 噪声问题。  相似文献   

3.
【目的/意义】从海量论文元数据中抽取算法术语并构建它们之间的创新演化关系,有利于对算法的有效管 理和运用,以帮助科研工作者提升研究效率、采纳前沿成果。【方法/过程】首先,以GAN算法论文摘要为语料,通过 人工标注与规则抽取相结合的方式进行算法术语标注,并利用BERT-BiLSTM-CRF模型实现算法术语的自动抽 取。然后,将建立的模型应用于LDA算法论文的被引文献元数据中抽取算法术语,依据规则判断和引文关系,从被 引内容中抽取LDA算法的创新演化路径并构建。【结果/结论】以GAN论文为实例的算法术语实验中,精确率、召回 率与F1分数分别达到了0.81、0.63与0.71,并应用关系抽取方法成功构建了LDA算法的创新演化路径,该方法可以 有效推动算法进化网络构建和算法检索与追踪等方面的工作,丰富创新扩散理论的相关研究。【创新/局限】拓展了 命名实体识别技术的应用领域,为计算机算法管理提供了良好的思路。后续可优化创新演化路径的构建方法。  相似文献   

4.
刘振 《情报科学》2018,36(9):115-117
【目的/意义】为了帮助科研人员从海量信息中发现热点和重大研究进展,抽取出有用的事件信息。【方法/ 过程】采用条件随机场方法和语义角色标注技术,构建了模型进行训练和学习。【结果/结论】提出了科技事件抽取 框架,实现了科技事件抽取系统,取得了一定的抽取效果,该系统的可扩展性和可移植性有待提高。  相似文献   

5.
马思丹  刘东苏 《情报科学》2019,37(11):38-42
【目的/意义】利用词向量的优点,提出一种加权Word2vec的文本分类方法,以期在文本分类时获得较高的 分类效果。【方法/过程】首先对文本进行词向量训练,通过设置词语相似度阈值,将文本关键词划分为重叠部分和非 重叠部分,随后分别计算两部分加权相似度值,再采用参数化线性加权方式计算文本相似度,最后采用KNN进行 分类。【结果/结论】实验结果表明文中提出的加权Word2vec方法比TF-IDF传统文本分类模型和均值Word2vec模 型的分类效果有所提升,是一种有效的文本分类方法。  相似文献   

6.
丁亮  何彦青 《情报科学》2017,35(10):125-132
【目的/意义】无论是统计机器翻译,还是神经机器翻译,训练数据通常来源复杂,主题多样,文体不一,与待 翻译目标文本的领域不能保证完全一致,导致领域自适应问题。目前机器翻译的领域自适应方法大多用主题模型 得到主题信息,将数据粗略划分为领域内(in-domain)和领域外(out-domain),缺乏更为明确的领域标签。【方法/过 程】本研究采用中图分类号作为领域标签,采用两种方法对汉语句子进行自动领域标注领域: 利用论文关键词和科 技词系统等知识组织构建领域知识库的领域标注方法;训练卷积神经网络的深度学习的领域标注方法,通过神经 网络深度融合模型将这两种方法融合起来得到效果更佳的领域标注器,利用机器翻译的测试集获取领域标签集合 筛选其训练数据。【结果/结论】经过在神经机器翻译系统上进行测试,针对两个特定领域测试集,仅利用部分训练 数据就获取了比原始训练数据高约1.3BLEU得分(相对5.4%)的翻译结果,证明了本研究方法的有效性和可行性。  相似文献   

7.
陈金菊 《情报科学》2021,39(1):148-156
【目的/意义】突发事件新闻具有连续性特征,现存的语义模型无法很好地表示这一特征,通过构建突发事 件新闻语义模型可以实现对这些连续性信息的深层次语义描述和利用。【方法/过程】本文根据由表及里的建模思 维,构建了一个突发事件新闻深层次语义描述本体模型。该模型分为元数据和内容语义两部分,内容语义部分以 事件为起点、以连续性情景和动作为核心。在对突发事件新闻案例进行语义描述的基础上,实现了语义检索、语义 推理、语义数据可视化分析等应用。【结果/结论】通过语义标注和应用实验,验证了该模型的可用性。【创新/局限】本 文提出的突发事件新闻本体模型,较好地解决了突发事件新闻连续性信息的语义标注问题。  相似文献   

8.
【目的/意义】应用改进的AHP-BP方法构建基于用户感知的科研项目数据库服务质量评价体系。【方法/ 过程】根据传统AHP法得出指标权重,计算出专家群组的净感知相关系数矩阵,确定了专家权重,进而求解得到评 价指标的综合权重,然后以多组数据为先验样本进行BP神经网络的训练、测试和验证,从而得出了可供推广的 AHP-BP神经网络的科研项目数据库综合指标权重模型。【结果/结论】对指标权重的分析表明,对于科研项目数据 库来说,内容是最关键的评价指标,且改进的AHP-BP神经网络评价模型所得结果更加客观合理。  相似文献   

9.
王日花 《情报科学》2021,39(10):76-87
【目的/意义】解决自动问答系统构建过程中数据集构建成本高的问题,以及自动问答过程中仅考虑问题或 答案本身相关性的局限。【方法/过程】提出了一种融合标注问答库和社区问答数据的数据集构建方法,构建问题关 键词-问题-答案-答案簇多层异构网络模型,并给出了基于该模型的自动问答算法。获取图书馆语料进行处理作 为实验数据,将BERT-Cos、AINN、BiMPM模型作为对比对象进行了实验与分析。【结果/结论】通过实验得到了各 模型在图书馆自动问答任务上的效果,本文所提模型在各评价指标上均优于其他模型,模型准确率达87.85%。【创 新/局限】本文提出的多数据源融合数据集构建方法和自动问答模型在问答任务中相对于已有方法具有更好的表 现,同时根据模型效果分析给出用户提问词长建议。  相似文献   

10.
任妮  鲍彤  沈耕宇  郭婷 《情报科学》2021,39(11):96-102
【 目的/意义】开展面向领域的细粒度命名实体识别研究对于提升文本挖掘精度具有重要的意义,本文以番 茄病虫害命名实体为例,探索采用深度学习技术实现面向领域的细粒度命名实体识别研究方法。【目的/意义】文章 以电子书、论文、网页作为数据源,选择品种、病虫害、症状、时间、部位、防治药剂六类实体进行标注,利用BERT和 CBOW 预训练字向量分别输入 BiLSTM-CRF 模型训练,并在识别后补充规则控制实体的边界。【结果/结论】 BERT预训练的字向量和BiLSTM-CRF结合,在补充规则控制后F值达到了81.03%,优于其它模型,在番茄病虫害 领域的实体识别中具有较好的效果。【创新/局限】BERT预训练的字向量可以有效降低番茄病虫害领域实体因分 词错误带来的影响,针对不同实体的特点,补充规则可以有效控制实体边界,提高识别准确率。但本文的规则补充 仅在测试阶段,并没有加入训练过程,整体的准确率还有待提高。  相似文献   

11.
【目的/意义】随着我国科技水平的不断提升,越来越多的科研人员致力于研究如何客观有效地评估科技论 文的质量。【方法/过程】本文提出了基于文本挖掘和文献计量的科技论文评估方法,该方法首先利用论文的引用 频率计算得到训练论文的质量,其次分别使用LSI和LDA方法来计算新论文和训练论文之间的相似度,设计论文质 量评估算法,根据训练论文的质量和论文间的相似度加权计算得到新论文的质量评价值。【结果/结论】在涉及多主 题和单一主题的数据集上的实验结果表明,本文提出的方法能够适用于包含多个主题的论文集,其计算出来的论 文质量值真实有效。  相似文献   

12.
商宪丽 《情报科学》2018,36(6):57-62
【目的/意义】本文剖析交叉学科的潜在主题识别,分析潜在主题的文献数量,揭示交叉学科的研究主题、构 成和热门研究主题。【方法/过程】以数字图书馆学科为实例,构建交叉学科集成数据集,经过数据集预处理、LDA主 题模型训练、潜在主题标签标注等处理过程,挖掘出交叉学科中的潜在主题及其构成,揭示交叉学科的热门研究主 题。【结果/结论】本文提出了一种基于潜在主题模型的交叉学科主题识别方法,该方法利用了交叉学科与相关基础 学科之间的内在关联,通过整合交叉学科研究文献与相关基础学科研究文献构建集成数据集,能够更为精确地识 别交叉学科的潜在主题和热门研究主题。  相似文献   

13.
基于BERT的领域本体分类关系自动识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
【目的/意义】实现对领域本体分类关系的自动学习识别,解决领域本体知识框架结构体系的自动化构建问 题。【方法/过程】通过对领域本体分类关系自动识别的国内外研究现状及存在问题进行分析总结,以当前开源的先 进的深度学习文本预训练模型BERT为基础,研究构建了基于BERT的领域本体分类关系自动识别模型,并以资源 环境学科领域为例进行了实验研究和评估分析。【结果/结论】基于BERT构建的分类模型能够实现对领域本体分类 关系的自动识别,识别方法和流程具有极大地通用性和可移植性,识别精度比传统方法有了较大提升。【创新/局 限】微调与泛化了BERT,提高了领域本体分类关系识别模型的通用性和精度。但由于受分类标注语料的质量限 制,模型精度尚未达到峰值,有待进一步优化提升。  相似文献   

14.
针对钢板表面缺陷图像分类传统深度学习算法中需要大量标签数据的问题,提出一种基于主动学习的高效分类方法。该方法包含一个轻量级的卷积神经网络和一个基于不确定性的主动学习样本筛选策略。神经网络采用简化的convolutional base进行特征提取,然后用全局池化层替换掉传统密集连接分类器中的隐藏层来减轻过拟合。为了更好的衡量模型对未标签图像样本所属类别的不确定性,首先将未标签图像样本传入到用标签图像样本训练好的模型,得到模型对每一个未标签样本关于标签的概率分布(probability distribution over classes, PDC),然后用此模型对标签样本进行预测并得到模型对每个标签的平均PDC。将两类分布的KL-divergence值作为不确定性指标来筛选未标签图像进行人工标注。根据在NEU-CLS开源缺陷数据集上的对比实验,该方法可以通过44%的标签数据实现97%的准确率,极大降低标注成本。  相似文献   

15.
陈福集  史蕊 《情报科学》2017,35(9):131-135
【目的/意义】精准预测与掌握舆情事件的发展,及时发现舆情中的潜在危机,对社会的长治久安具有重要 意义。【方法/过程】针对网络舆情演化的不确定性、多变性与灰色性等特征,选取多个指标数据建立多因素灰色模 型(MGM(1,m))。同时,为提高预测结果的精确度,利用BP神经网络对多因素灰色模型的预测残差进行修正,构建 基于残差修正的多因素灰色模型,并结合“莆田系事件”对模型预测性能进行验证。【结果/结论】仿真结果表明,相 对于单一序列GM(1,1)模型和无残差修正的多因素灰色模型,残差修正后的多因素灰色模型在网络舆情预测上具 有一定的优势。  相似文献   

16.
【目的/意义】针对非物质文化遗产(简称“非遗”)视频资源难以入库与管理的难题,提出了一种非遗视频资 源的管理和语义组织的语义标注方法。【方法/过程】首先对非遗视频采用基于SURF算法和窗口阈值的镜头分割方 法,将非遗视频解构成不同颗粒度的逻辑单元;其次构建了非遗视频语义标注的本体模型;最后通过视频语义标注 过程,实现领域知识概念与视频资源间的语义关联,赋予视频单元丰富的语义信息。【结果/结论】非遗视频综合语 义标注方法可对非遗视频资源实现有效管理,为用户提供结构化、语义化的视频浏览及知识可视化等知识服务,对 非遗数字化保护与传播具有重要的意义和价值。  相似文献   

17.
【目的/意义】面对网络时代数据的海量性和无序性,为用户推荐个性化资源有利于增强用户间合作、提高 知识的共享速度,对新知识的发现具有深远意义。【方法/过程】基于具有相同兴趣用户的聚合优于单纯的信息聚 合,构建基于社会化标注系统的个性化推荐模型。通过引入社会网络中用户使用标签的频次来选择与用户关联显 著的标签,并通过加权派系发现和聚合“小众”凝聚组群和相似标签集,进而为用户推荐优质资源,使其真正契合用 户的个性化需求偏好。【结果/结论】结果表明模型能够有效实现信息的个性化推荐,消除单独聚类带来的粗糙数据 集,并通过抓取豆瓣上的数据进行实证分析。  相似文献   

18.
【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作 用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流 水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列 标注模式和实体关系匹配规则,在预训练语言模型BERT(Bidirectional Encoder Representations from Transformers) 的基础上结合双向门控循环单元 BiGRU(Bidirectional Gated Recurrent Units)与条件随机场 CRF(Conditional Random Field)构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据 进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出 了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关 系的识别。  相似文献   

19.
【目的/意义】本文基于颜色、纹理等外部特征与局部视觉特征构成的底层语义特征数据并采用随机森林的 方法对医学图像信息进行语义自动标注,为医务工作者提供临床决策参考,便于普通公众理解医学知识和了解个 人健康情况,也可以在大数据环境下扩展图书情报领域研究人员对信息组织与处理的范围,促进学科交叉与融合, 提升智慧医学的发展,为健康中国战略提供智力与技术支持。【方法/过程】融合图书情报领域知识与医学知识,将 图像语义标注看作为一个多类分类问题,首先,抽取颜色、纹理等外部特征及局部视觉特征等底层语义特征;然后, 运用随机森林的方法,设计了基于随机森林的医学图像自动标注方案。【结果/结论】融合底层语义特征的医学图像 信息自动标注的方案与随机树标注方案相比较,具有较好的效果。【创新/局限】将视觉语义词典作为医学图像的底 层语义特征引入到图像标注中;运用随机森林构建的医学图像标注方案;局限在于仅采用BreaKHis数据集为实验 数据。  相似文献   

20.
【目的/意义】舆情信息自发演化条件下出现多平台联动现象,使舆情演化的内在机理更加复杂,进一步增 加政府对舆情的认知难度和治理成本。【方法/过程】在分析舆情系统多场域耦合效应治理原理的基础上,针对基于 Logistic 扩展模型的舆情系统,提出确定耦合效应的研判方法,以不同稳态情形更有针对性地制定舆情治理策略, 并根据COVID-19舆情案例进行可视化展示。【结果/结论】本文提出的耦合效应量化与识别方法适用于舆情治理 工作,可将多场域治理问题递归为双场域情形,进一步实现精准施策。【创新/局限】考虑耦合效应的舆情系统在解 释现象、理论基础、演化原理、研究层面和适用范围上有别于现有文献,未来应投入更加丰富的案例样本拓展实践 检验。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号