首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于BERT的领域本体分类关系自动识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
【目的/意义】实现对领域本体分类关系的自动学习识别,解决领域本体知识框架结构体系的自动化构建问 题。【方法/过程】通过对领域本体分类关系自动识别的国内外研究现状及存在问题进行分析总结,以当前开源的先 进的深度学习文本预训练模型BERT为基础,研究构建了基于BERT的领域本体分类关系自动识别模型,并以资源 环境学科领域为例进行了实验研究和评估分析。【结果/结论】基于BERT构建的分类模型能够实现对领域本体分类 关系的自动识别,识别方法和流程具有极大地通用性和可移植性,识别精度比传统方法有了较大提升。【创新/局 限】微调与泛化了BERT,提高了领域本体分类关系识别模型的通用性和精度。但由于受分类标注语料的质量限 制,模型精度尚未达到峰值,有待进一步优化提升。  相似文献   

2.
陈金菊 《情报科学》2021,39(1):148-156
【目的/意义】突发事件新闻具有连续性特征,现存的语义模型无法很好地表示这一特征,通过构建突发事 件新闻语义模型可以实现对这些连续性信息的深层次语义描述和利用。【方法/过程】本文根据由表及里的建模思 维,构建了一个突发事件新闻深层次语义描述本体模型。该模型分为元数据和内容语义两部分,内容语义部分以 事件为起点、以连续性情景和动作为核心。在对突发事件新闻案例进行语义描述的基础上,实现了语义检索、语义 推理、语义数据可视化分析等应用。【结果/结论】通过语义标注和应用实验,验证了该模型的可用性。【创新/局限】本 文提出的突发事件新闻本体模型,较好地解决了突发事件新闻连续性信息的语义标注问题。  相似文献   

3.
闫盛枫 《情报科学》2021,39(9):146-154
【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出 一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时 序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强 其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法 对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具 有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提 升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单 元和语法结构。  相似文献   

4.
【目的/意义】探讨一种基于已有资源的本体构建新方法。【方法/过程】以《医学主题词表》为例,在概述叙 词表内容结构之后,详尽阐述基于叙词表等级结构及其语义关系的本体构建原则及整个过程,并开发自动处理工 具实现批量叙词表数据的本体构建。【结果/结论】通过收集大规模实验数据进行验证,表明本研究为复用叙词表资 源的本体构建,以及实现不同类型知识组织系统之间的语义共享提供了一种新思路。  相似文献   

5.
胡吉明  钱玮  李雨薇  文鹏 《情报科学》2021,39(10):11-17
【目的/意义】本文以主题为核心,从外部属性和内容属性两个视角展开政策文本结构化解析,直观反映政 策核心内涵,挖掘政策文本语义,为政策内容解读提供新模式。【方法/过程】利用LDA2Vec主题模型实现基于上下 文的政策文本主题识别,同时借助位置和语法规律提取外部属性,以此构建政策文本结构化解析的描述框架。【结 果/结论】“互联网+”政策文本解读的实证分析发现,本文所提框架有助于直观展现政策要素,有效揭示政策文本主 题分布,以及进行大规模政策领域文本的批量分析和解读。【创新/局限】通过结构化解析框架展现政策文本的形式 化特征和主题性特征,帮助政策相关群体把握政策制定的特点和侧重点,目前深层次内容解读有待进一步研究。  相似文献   

6.
王佳敏  吴乐艳  李鹏程  熊资  陆伟  杜佳 《情报科学》2021,39(11):173-179
【目的/意义】本文构建了一个大规模学术文献致谢功能数据集,并提出一种基于SciBERT的致谢功能识别 模型,为致谢文本的挖掘和分析提供高质量的数据支持和有效的识别方法。【方法/过程】采用人工的方式扩展和完 善致谢功能分类规则,生成学术文献致谢功能自动标引规则模板,对1,750,275条致谢文本进行功能标引。在此基 础上,采用 SciBERT 模型对致谢文本句进行向量表达,引入 Softmax 回归模型实现致谢功能自动分类,采用 warmup策略进行模型调优,并与基准实验进行对比。【结果/结论】得到一个大规模、高质量的学术文献致谢功能数 据集,经人工检验准确率达到93%;基于SciBERT的识别模型比基准模型表现更好,在扩展数据集上的F1值高于 98%,在各个类别上的预测结果也有不同程度的提升。【创新/局限】致谢功能识别模型缺少对致谢文本独有特征的 考虑和融合。  相似文献   

7.
【目的/意义】随着社交网络与新闻媒体的发展,大量虚假信息的滋生与传播已经引发了严重的社会问题。目前的研究主要依赖于收集谣言发生后的传播特征进行识别。为了在早期更准确地发现谣言,本文提出一种融合深度语义知识的谣言识别模型。【方法/过程】本文通过使用Transformer和Multi-head注意力抽取舆情信息深层结构的复杂特征,融合了文档结构及上下文语义知识表征,以提高早期识别虚假舆论信息准确率来及时防止谣言传播扩散。【结果/结论】本文通过在各个平台的真实数据集进行训练和识别实验,较现有基线方法的准确率最少提升了5.6%,最大提高了24.6%。结果表明,本文模型可通过对早期谣言文本的事实验证,提高模型识别谣言的准确性以在早期阶段阻断谣言传播。【创新/局限】本文谣言识别模型在BERT-Base基础上进一步结合了舆情文本语义知识特征表征,能有效提高早期谣言的识别准确度,但目前尚未考虑谣言传播者个性化特征如社会标签、行为信息等,如何融合更多传播者特征有待进一步研究。  相似文献   

8.
张国标  李洁  胡潇戈 《情报科学》2021,39(10):126-132
【目的/意义】社交媒体在改变新闻传播以及人类获取信息方式的同时,也成为了虚假新闻传播的主要渠 道。因此,快速识别社交媒体中的虚假新闻,扼制虚假信息的传播,对净化网络空间、维护公共安全至关重要。【方 法/过程】为了有效识别社交媒体上发布的虚假新闻,本文基于对虚假新闻内容特征的深入剖析,分别设计了文本 词向量、文本情感、图像底层、图像语义特征的表示方法,用以提取社交网络中虚假新闻的图像特征信息和文本特 征信息,构建多模态特征融合的虚假新闻检测模型,并使用MediaEval2015数据集对模型性能进行效果验证。【结果/ 结论】通过对比分析不同特征组合方式和不同分类方法的实验结果,发现融合文本特征和图像特征的多模态模型 可以有效提升虚假新闻检测效果。【创新/局限】研究从多模态的角度设计了虚假新闻检测模型,融合了文本与图像 的多种特征。然而采用向量拼接来实现特征融合,不仅无法实现各种特征的充分互补,而且容易造成维度灾难。  相似文献   

9.
纪娇娇  褚建勋 《情报科学》2017,35(5):100-105
【目的/意义】在大数据和信息爆炸的背景下,为改善传统中文议题框架分析方法中信效度难以保证、分析 效率低下等问题,本文提出基于语义网络和 Bag-of–words(BOW)模型两种方法结合的量化模型。【方法/过程】 该模型首先利用语义网络分析提取样本的议题框架种类和整体集群分布,然后利用 BOW 模型对每个分析单元进 行议题量化统计分析。最后,以《人民日报》转基因相关报道文本为例,验证量化模型议题分析的可行性和有效 性。【结果/结论】结果表明,该方法可高效完成分析,同时保证了议题框架分析的客观性。  相似文献   

10.
彭博 《情报科学》2021,39(9):162-169
【目的/意义】如何将网络文物信息资源中不同的知识提炼后推荐给有关用户,是文物信息资源开发与利用 过程中的关键问题。【方法/过程】通过主题-知识关联模型构建文物知识网络并识别网络中文物信息资源文本中的 主题词,而后根据知识及主题词的重要性对耦合后的知识进行重要性排序,按照知识与主题的关联程度实现文物 信息资源的知识推荐。【结果/结论】在实验中实现了不同网络文物信息资源的知识推荐,对比了不同数量主题词下 知识发现的效果,发现该方法在学术型文物信息资源的知识发现与推荐中效果较好。【创新/局限】利用知识库与信 息资源内容构建知识网络,通过计算网络节点的重要性进行知识推荐,为文物信息资源的利用提供了新的方法。 但受制于知识库知识储备的影响,可能无法挖掘信息资源的知识全貌。  相似文献   

11.
【目的/意义】面对海量非结构化的数据,如何快速准确地检索到目标信息,实现相关信息的自动关联,是语 义检索和智能推荐的研究重点。【方法/过程】为解决该问题,提出了一种基于本体的JESS推理模型。以目前常用的 形式概念分析法(FCA)(应用于知识采集)及描述逻辑(应用于知识表达)为基础进行相关术语和概念的抽取,探讨 两者在使用过程中的问题及不协调处,并提出改进方式。在基于LCS原则上,探索新增概念及上下级关联架构。 然后利用本体建模工具protégé构建领域本体,建立基于推理引擎JESS的检索查询系统,进行检索。【结果/结论】实 证研究表明,该本体模型支持基于语义推理的智能查询,并能提高查全率及查准率。  相似文献   

12.
何喜军  马珊  武玉英 《情报科学》2018,36(11):95-100
【目的/意义】为应对线上技术供需信息超载导致的检索难、信息非结构化导致的供需文本匹配难的问题, 开展技术供需信息语义匹配研究。【方法/过程】构建技术领域本体,利用SAO结构分析提取技术供需信息中多维 语义结构特征,表征供给技术的创新特征及技术需求的问题特征。应用基于本体信息内容与语义距离相似算法, 结合词向量与熵值分析,提出技术供需多维语义结构匹配模型。【结果/结论】对线上新能源领域技术供需数据进行 测试,验证模型有效性,为提高技术供需主体信息检索效率、促进供需对接提供思路,并为考虑供需信息匹配的科 技主体推荐提供决策。  相似文献   

13.
【目的/意义】本文希望通过自动化本体构建将非结构化的用户生成内容组织成为语义丰富的本体。【方法/ 过程】综合运用机器学习、自然语言处理等技术,从用户生成内容中抽取本体概念、同义关系及分类关系,形成领域 本体,并且通过京东商城用户评论进行实证。【结果/结论】本文实现了手机本体的自动构建,发现该模型能够达到 较高准确率,消除了大量冗余,更符合用户需求。  相似文献   

14.
【目的/意义】爆发式增长的文献资源为传统的阅读活动带来了困难,也给STM图书的组织与服务提出了 新的要求。图书标注框架是图书内容与形式的规范化表示,对于解决图书的深度标引和知识关联具有重要意义。 【方法/过程】首先从用户需求出发明确了STM图书资源标注框架的构建原则,而后从图书的物理特征、内容特征、 增强特征和使用特征4个维度设计了本文框架包含的实体对象及其语义关系,最后展现了利用该框架进行STM图 书知识建模表示的过程,并通过应用案例验证了本文框架的可用性。【结果/结论】该标注框架具有需求驱动、多维 揭示、深度描述和语义关联等特征,对于支持STM图书资源的上层服务具有参考价值。【创新/局限】本文设计了 STM图书资源的标注框架,并选取应用实例探究其知识揭示与表达能力,但未能从知识服务视角对标注结果开展 进一步的应用研究。  相似文献   

15.
韩娜  马海群  刘兴丽 《情报科学》2021,39(11):180-186
【目的/意义】从大数据驱动角度出发,探索采用人工智能方法实现对政策文本协同性定量分析的可能性。 【方法/过程】以政策全文本数据为研究对象,使用知识图谱技术实现不同主题的本体构建,并应用数据挖掘中关联 规则构建推理模型,对图谱表示的政策文本进行协同性语义挖掘和推理。【结果/结论】围绕“开放数据”和“数据安 全”主题构建知识图谱,实现对政策文本的本体表示,在此基础上使用关联规则完成单文本和多文本在两个主题间 的协同性分析。【创新/局限】本文将知识图谱应用于政策文本分析领域,并完成协同性分析,为政策的全样本分析 提供可能性,后续需扩大样本规模,提升推理效率。  相似文献   

16.
【目的/意义】使用人工或常用软件工具获取本体概念及概念间关系已无法满足自媒体环境下大数据的本 体构建及维护的要求,本文尝试用自动或半自动方式予以实现。【方法/过程】对电子商务领域原始语料进行分句、 分词等预处理,构建领域语料库;使用基于语言学以及统计学的方法提取电子商务领域本体概念,同时提出基于混 合策略的本体概念抽取方法;然后使用基于语言学、聚类的方法提取电商领域本体概念与概念之间存在的分类关 系,使用基于关联规则挖掘的方法抽取其本体概念与概念之间存在的非分类关系。【结果/结论】将文本挖掘与本体 构建结合起来,提出了领域本体概念及概念间关系自动抽取与本体构建方法,实验表明使用本体框架 Jena利用此方 法可以自动构建电子商务领域本体,并可将其应用到通用的语义检索系统中。  相似文献   

17.
【目的/意义】从开放政府数据主题的多个政策文本的语义挖掘出发,发现多个政策文本内容间的语义关 系,探索能降低人工干预,实现多政策文本协同性自动化分析的方法。【方法/过程】利用数据挖掘的关联规则算法 对经过预处理的开放政府数据政策文本进行语义挖掘,按照得到的有效强关联分析多政策文本间的协同性。【结 果/结论】以开放政府数据主题的多个政策文本为研究对象,确定置信度为 0.7,提升度大于 3时得到的有效强关联 规则数量较稳定;经过不同层次的政策文本关联规则分析,可以得到与人工分析基本吻合的结论,验证了该方法可 以应用于多政策文本语义协同性的定量研究。【创新/局限】采用数据挖掘中的关联规则算法完成数据政策多文本 的协同性知识推理研究,有效的实现了语义自动化计算的问题。实验中政策词表的完整性、数据预处理过程、参数 设定等环节都会对实验结果准确性有影响,需进一步降低人工干预影响。  相似文献   

18.
陈杰  马静  李晓峰  郭小宇 《情报科学》2022,40(3):117-125
【目的/意义】本文融合文本和图像的多模态信息进行情感识别,引入图片模态信息进行情感语义增强,旨在 解决单一文本模态信息无法准确判定情感极性的问题。【方法/过程】本文以网民在新浪微博发表的微博数据为实 验对象,提出了一种基于DR-Transformer模型的多模态情感识别算法,使用预训练的DenseNet和RoBERTa模型, 分别提取图片模态和文本模态的情感特征;通过引入Modal Embedding机制,达到标识不同模态特征来源的目的; 采用浅层Transformer Encoder对不同模态的情感特征进行融合,利用Self-Attention机制动态调整各模态信息特征 的权重。【结果/结论】在微博数据集上的实验表明:模型情感识别准确率为 79.84%;相较于基于单一文本、图片模 态的情感分类算法,本模型准确率分别提升了 4.74%、19.05%;相较于对不同模态特征向量进行直接拼接的特征融 合方法,本模型准确率提升了 1.12%。充分说明了本模型在情感识别的问题上具有科学性、合理性、有效性。【创 新/局限】利用 Modal Embedding 和 Self-Attention 机制能够有效的融合多模态信息。微博网络舆情数据集还需进 一步扩充。  相似文献   

19.
牛力  刘慧琳  王保国 《情报科学》2021,39(11):30-37
【 目的/意义】数字环境下典藏资源在利用中遇到瓶颈,因此需要优化或更新资源组织方式,本体与标签作为 网络信息组织的重要手段可以为典藏资源的组织带来借鉴。【方法/过程】从资源组织过程出发,基于本体的设计方 法,构建了面向典藏资源的多维度标签体系分层框架,展现层级序化的组织过程。同时基于典藏资源组织需求,设 计了数字人文视角下标签体系模型,展现标签体系在资源组织与服务中的作用。【结果/结论】以吴宝康老照片资源 为例的实证检验再次印证,数字人文视角下典藏资源多维度标签本体的构建能够帮助建立资源间的关联关系,为 语义检索与导航、知识发现与可视化等提供支持。【创新/局限】借助本体规范标签的知识表示展现了标签体系在典 藏资源立体化、语义化、细粒度组织过程中所发挥的作用,未来可以加强过程的自动化程度,推广研究对象的适应 范围。  相似文献   

20.
赵文娟  刘忠宝  郭慧 《情报科学》2019,37(5):108-114
【目的/意义】传统的信息检索技术主要是基于关键词匹配的信息推送,该方法容易出现漏检和误检的情 况。语义检索通过语义分析获得用户真正的检索意图,实现精准检索。【方法/过程】本文在对语义检索的原理和模 型进行描述的基础上,提出了基于本体概念树模型的词元扩展算法,通过对词元的语义相似性、语义相关性进行计 算,得出词元的语义关联度,关联度超过一定阈值的词元的集合即为扩展后的词元集。【结果/结论】该方法既考虑 了具有继承关系的词元间的语义相似性,也考虑了具有相同属性词元间的语义关联度,结论更具参考价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号