首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别,即发现命名实体和标注命名实体。利用了隐马尔可夫模型(HMM,Hidden Markov Model)和改进的隐马尔可夫模型进行英文命名实体的识别。  相似文献   

2.
王志宇  刘雨薇 《现代情报》2024,(3):47-58+119
[目的/意义]利用政务微博信息构建自然灾害知识图谱,旨在为相关部门加强自然灾害事件的管理提供知识层面的参考价值。[方法/过程]以森林火灾事件为例,选取政务微博信息资源,首先使用LDA主题模型划分微博资源主题;其次构建自然灾害知识图谱的模式层和数据层,包括本体构建、实体抽取、关系抽取和数据融合等环节;最后使用Neo4j图数据库实现自然灾害知识图谱的存储与检索,实现自然灾害信息的组织与可视化。[结果/结论]构建了基于主题划分的自然灾害知识图谱,实现了自然灾害信息的主题知识关联与规范化处理,对提升政府部门防范与管理自然灾害的科学决策水平具有积极作用。  相似文献   

3.
[目的/意义]随着大数据和人工智能时代的来临,基于数据驱动的医疗辅助决策以及医疗健康知识挖掘受到人们的极大关注。医疗知识图谱是医疗信息分析和知识服务的基础,在医疗人工智能和医疗信息检索中发挥着重要作用。[方法/过程]本文以医疗领域的实际应用需求为出发点,从医疗大数据获取、医疗实体及关系标注、医疗实体识别、医疗实体链接、医疗实体关系挖掘、中文医疗知识图谱表示和存储等关键技术入手,提出了多数据源融合的医疗知识图谱构建的理论框架。[结果/结论]面向医疗领域的知识图谱构建是一项非常重要的基础任务,同时也是人工智能领域的重要发展方向。  相似文献   

4.
[目的/意义]为了帮助情报学学科背景的就业人员掌握市场对情报学人才的具体需要,为情报学的教育者拟定情报学的教育体系和人才培养的目标提供指导。[方法/过程]采集国内各大招聘网站情报学相关职位招聘公告,构建情报学招聘语料库,基于CRF机器学习模型和Bi-LSTM-CRF、BERT、BERT-Bi-LSTM-CRF深度学习模型,从语料库中抽取5类情报学招聘实体进行挖掘分析。[结果/结论]通过在已有2000篇经过标注的职位招聘公告语料库上开展情报学招聘实体自动抽取对比实验,识别效果最佳的CRF模型的整体F值为85.07%,其中对"专业要求"实体的识别F值达到了91.67%。BERT模型在"专业要求"实体识别任务中更是取得了92.10%的F值。使用CRF模型对全部符合要求的5287篇招聘公告进行实体抽取,构建了情报学招聘实体社会网络,并通过信息计量分析与社会网络分析的方式挖掘隐含知识。  相似文献   

5.
[研究目的]为提高专利知识图谱构建的自动化水平,并实现知识服务与交易服务的融合,提出了面向供需信息挖掘的供需知识图谱(PSD-KG)的构建思路。[研究方法]知识图谱规划方面,对专利交易涉及实体及关系进行了拓展,规划了共由12类实体和14类关系组成的PSD-KG。知识图谱构建方法上,建立专利领域词典以实现语料自动化标注,并提出了基于BERT-BiLSTM-CRF模型的语义实体识别方法。[研究结论]与传统的CRF、BiLSTM-CRF模型对比发现,该文模型的准确率、召回率和F1指数均高于85%,验证了方法的有效性;以燃料电池领域为例构建PSD-KG,通过技术供需热点识别及演化研究,识别出三类技术热点,包括:持续热门技术点、新兴热门技术点和潜在热点技术;并在交易网络分析、供需信息检索等方面挖掘新应用场景。研究成果也为专利交易推荐提供了知识库。  相似文献   

6.
[目的/意义]基于数据科学与情报学领域的密切联系,对数据科学任职要求知识进行深入挖掘,有利于掌握社会对于情报学相关领域人才的需求,从而完善情报学教育的培养方案,帮助实现社会需求与高校教育的良好对接。[方法/过程]文章采集了国内主流招聘网站中数据科学相关工作岗位的招聘信息,并对数据进行解析、去重等清洗工作,对招聘信息中的任职要求实体进行人工标注,比较了LSTM,BiLSTM-CRF和BERT三种深度学习模型应用于实体识别的效果。[结果/结论]结果表明,BiLSTM-CRF模型对任职要求实体的识别效果最好,相较于其他两种深度学习模型具有一定的优势。文章根据抽取出的任职要求实体从实践能力、学历要求、脚本语言、数据处理、综合素质等方面总结了目前情报学人才应当具备的技能和素质,并由此提出了针对情报学教育的人才培养方案。  相似文献   

7.
[目的/意义]近年来,科技文献资源呈爆炸性增长,海量科技文献中依旧存在大量非结构化摘要。非结构化摘要一方面不利于学者阅读与理解;另一方面不利于对摘要内部信息进行知识的自动化抽取和相应的检索。研究科技文献非结构化摘要的知识表示模型及其自动化抽取方法,对学者快速阅读和机器自动化处理具有重要意义。[方法/过程]文章在分析科技文献非结构化摘要结构的基础上,结合知识元本体理论,构建了一个面向科技文献非结构化摘要的知识元本体模型。通过分析非结构化摘要的写作特征,将文本按句子级划分为目的、方法、结果或结论三个要素,统计每个要素句中的线索词、句型和位置,建立相关规则库,根据本体模型和规则库构建相关抽取算法。最后,下载《计算机技术与发展》中的部分文献进行实验。[结果/结论]通过增加句型集和线索词集,完善了非结构化摘要的要素,构建了非结构化摘要知识元本体模型。实验结果表明,根据本文提出的模型能有效地对非结构化摘要中的知识元进行抽取。[局限]实验的不足之处是需要人工对摘要中的句型和线索词进行归纳总结。  相似文献   

8.
刘春丽  陈爽 《现代情报》2023,(12):143-163
[目的/意义]科学文献中的知识实体的挖掘、利用与评价对知识发现、构建知识网络、探索知识之间潜在关联均具有重要意义。随着机器学习、深度学习和大语言模型的发展及其应用,相比最早的基于人工标注的知识实体抽取技术,如今已经发生了翻天覆地的变化;此外,近年来,学者对科学文献中知识实体的评价也进行一些探索,取得了较大进展。[方法/过程]在相关文献调研基础上,回顾并比较了基于人工标注的方法、基于规则的方法、传统机器学习、基于深度学习与大语言模型在知识实体抽取方面的优缺点,列举了相关数据集、软件与工具及相关专业会议;从提及频率、替代计量及其影响因素、实体共现网络及实体扩散/引文网络、基于知识实体的同行评议、基于知识实体的论文新颖性和临床转化进展五大方面,对知识实体的评价研究最新进展进行了归纳与整理。[结果/结论]针对目前存在的问题,建议在具体的知识实体抽取任务中,抽取方法选择应权衡多方面因素,再依此选择一个或多个模型完成实体抽取任务;在知识实体评价方面,应重视指标多样化、可靠性、有效性、系统性和规范化研究,关注对知识实体评价指标的影响因素、指标间相关关系与因果关系的实证分析,构建基于知识实体的论文评价...  相似文献   

9.
【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作 用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流 水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列 标注模式和实体关系匹配规则,在预训练语言模型BERT(Bidirectional Encoder Representations from Transformers) 的基础上结合双向门控循环单元 BiGRU(Bidirectional Gated Recurrent Units)与条件随机场 CRF(Conditional Random Field)构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据 进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出 了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关 系的识别。  相似文献   

10.
[目的/意义]针对在线医疗社区问答文本复杂程度高、结构化程度低的特点,结合卷积神经网络(CNN)和双向长短记忆神经网络(BiLSTM)两种深度学习模型以及条件随机场(CRF)模型,提出一套适用于在线医疗问答文本的实体识别方法并进行验证。 [过程/方法] 将问答文本进行清洗和BIO标注后,分别用CNN和BiLSTM进行字级别的特征抽取,将两种模型抽取到的特征进行融合,后放入CRF中训练出实体预测模型,再将问答文本放入训练好的模型中得到最终的实体识别结果。[结果/结论]在所选取的乳腺癌医疗社区问答文本数据集上,所提出的方法结果优于其他模型,且识别准确率达到92.3%,召回率达到89.3%,F值达到90.8%。  相似文献   

11.
刘佳  边俊伊 《现代情报》2023,(11):37-46
[目的/意义]针对藏医古籍知识组织与开发不足的问题,利用混合深度学习方法构建面向藏医古籍的命名实体识别模型,为藏医古籍知识的深度开发与利用提供方法支持。[方法/过程]根据藏医古籍知识特点,构建ALBERT-BiLSTM-CRF模型。以《四部医典》为数据集,在人工标注与文本预处理的基础上,进行命名实体识别实验,并将实验结果与其他3种常见模型进行对比分析。[结果/结论]ALBERT-BiLSTM-CRF模型对藏医古籍实体识别效果最好,F1-score达到96.28%,与其他方法相比提升约7个百分点。  相似文献   

12.
鲍玉来  耿雪来  飞龙 《现代情报》2019,39(8):132-136
[目的/意义]在非结构化语料集中抽取知识要素,是实现知识图谱的重要环节,本文探索了应用深度学习中的卷积神经网络(CNN)模型进行旅游领域知识关系抽取方法。[方法/过程]抓取专业旅游网站的相关数据建立语料库,对部分语料进行人工标注作为训练集和测试集,通过Python语言编程实现分词、向量化及CNN模型,进行关系抽取实验。[结果/结论]实验结果表明,应用卷积神经网络对非结构化的旅游文本进行关系抽取时能够取得满意的效果(Precision 0.77,Recall 0.76,F1-measure 0.76)。抽取结果通过人工校对进行优化后,可以为旅游知识图谱构建、领域本体构建等工作奠定基础。  相似文献   

13.
丁浩  孔令圆  刘清  胡广伟 《现代情报》2023,(11):135-145
[目的/意义]本文针对农业领域提出一种基于融合多重特征词嵌入模型的农业命名实体识别方法,以提高识别准确度。[方法/过程]通过使用结合字符、位置语义、领域知识字典特征等多重特征向量作为嵌入层,充分考虑字符的位置信息和上下文语义信息,并根据农业领域的中文实体的特点改进了单一字符向量嵌入,获得更多的农业实体特征,同时采用双向长短时记忆网络BiLSTM和多头注意力机制来学习文本的长距离依赖信息,再利用条件随机场CRF获得全局最优标注序列。[结果/结论]本文在农业领域中文实体语料数据集中与9种基于基线方法进行对比实验,模型的Precision为92.2%,Recall为92.0%,F1值为92.11%,均优于其他基线模型,说明本文模型对于中文农业命名实体识别更精确。  相似文献   

14.
[目的/意义]科学数据已经成为数据驱动型科研的重要资料和产出成果,研究科学数据引用可以帮助追踪数据的使用状况、开展数据计量和评价、加速科研进程。[方法/过程]以生物信息学领域学术论文全文信息作为研究对象,利用规则抽取和人工标注形成了生物信息学引文分类数据集,对比评估6种深度学习模型与3种传统机器学习模型在数据集上的分类和识别效果。[结果/结论]实证研究效果显示,采用考虑语义和上下文特征的深度学习方法在科学数据正式引用识别任务中具有更优效果。[局限]未充分考虑数据类别不均衡问题。  相似文献   

15.
[目的/意义]科学数据已经成为数据驱动型科研的重要资料和产出成果,研究科学数据引用可以帮助追踪数据的使用状况、开展数据计量和评价、加速科研进程。[方法/过程]以生物信息学领域学术论文全文信息作为研究对象,利用规则抽取和人工标注形成了生物信息学引文分类数据集,对比评估6种深度学习模型与3种传统机器学习模型在数据集上的分类和识别效果。[结果/结论]实证研究效果显示,采用考虑语义和上下文特征的深度学习方法在科学数据正式引用识别任务中具有更优效果。[局限]未充分考虑数据类别不均衡问题。  相似文献   

16.
李白 《科技风》2024,(8):1-3
尽管现代照明技术在煤矿井下得到广泛应用,但由于信息碎片化和内容繁杂,导致大量数据和知识未能充分利用。为解决这一问题,本文构建了基于本体的煤矿井下照明知识图谱。通过定义核心概念、关系和属性,进行知识建模,然后利用命名实体识别、关系抽取和属性抽取将非结构化数据转化为结构化数据。最后,使用Neo4j图数据库存储知识,实现了煤矿井下照明知识图谱的构建。该图谱提高了数据整合和管理效率,为煤矿行业数字化转型提供了有力的知识支持。  相似文献   

17.
杨宁  张志强 《情报杂志》2022,41(2):182-189
[研究目的]科学数据已经成为科研产出的重要成果类型之一,通过研究和观察科学数据的使用情况可以发现科学数据的管理需求,提高科研人员共享和重用科学数据的积极性。[研究方法]以生物信息学领域学术论文全文信息作为研究对象,利用规则抽取和人工标注形成了生物信息学引文分类数据集,并对比评估了8种机器学习方法在数据集上的分类和识别效果。[研究结论]实证研究效果显示,机器学习分类方法可以用于科学数据正式引用识别,全文信息和样本集大小对分类效果起到关键性作用。  相似文献   

18.
卢恒  陈章杰  周知 《情报理论与实践》2023,(12):157-166+192
[目的/意义]知识图谱已经成为海量信息资源知识组织的新形态。将知识图谱应用于虚拟学术社区用户生成内容知识组织中,对于虚拟学术社区知识发现及服务具有重要意义。[方法/过程]提出一种基于知识图谱的虚拟学术社区用户生成内容知识共聚框架。首先,运用Word2Vec词向量模型对虚拟学术社区用户生成内容数据集进行词向量表示;其次,基于双向长短记忆神经网络模型与条件随机场识别出虚拟学术社区用户生成内容中的命名实体,基于双向门控循环单元与注意力机制进行实体关系抽取;最后,借助Neo4j图数据库对知识共聚的结果进行可视化展示,并采集丁香园心血管论坛的学术交流帖子,对提出的知识共聚框架进行实证分析。[结果/结论]基于知识图谱的虚拟学术社区用户生成内容知识共聚方法能够有效序化重组虚拟学术社区知识资源,细粒度挖掘和揭示不同类型的知识单元和知识关联,有助于为虚拟学术社区智能知识服务提供语义理解和人工智能的基础。  相似文献   

19.
邱金鹏 《科技通报》2019,35(10):133-136
传统Web页面语义标注方法需手工处理,或只可将Web页面中有属性的标签赋予数据,针对无属性标签数据不进行标注,不适于大规模Web页面信息标注,且标注结果不可靠。为此,提出一种新的基于集成学习的动态Web页面语义标注方法。给出动态Web页面语义标注流程。将Web页面转换成DOM树,识别待标注文本。选取抽取信息特征与训练Web页面特征,将含有语义信息的内容分配至概念抽象化的本体上,采用多分类器集成学习方法进行分类,区分待标注信息是属性标签还是数据元素,通过不同分类器预测结果的一致性对相应样本被准确标注的置信度进行衡量。通过训练页面中涵盖的属性标注规则集与抽取信息中的属性名称实现语义标注。实验结果表明,所提方法适于大规模动态Web页面语义标注,标注结果可靠。  相似文献   

20.
【目的/意义】从海量论文元数据中抽取算法术语并构建它们之间的创新演化关系,有利于对算法的有效管 理和运用,以帮助科研工作者提升研究效率、采纳前沿成果。【方法/过程】首先,以GAN算法论文摘要为语料,通过 人工标注与规则抽取相结合的方式进行算法术语标注,并利用BERT-BiLSTM-CRF模型实现算法术语的自动抽 取。然后,将建立的模型应用于LDA算法论文的被引文献元数据中抽取算法术语,依据规则判断和引文关系,从被 引内容中抽取LDA算法的创新演化路径并构建。【结果/结论】以GAN论文为实例的算法术语实验中,精确率、召回 率与F1分数分别达到了0.81、0.63与0.71,并应用关系抽取方法成功构建了LDA算法的创新演化路径,该方法可以 有效推动算法进化网络构建和算法检索与追踪等方面的工作,丰富创新扩散理论的相关研究。【创新/局限】拓展了 命名实体识别技术的应用领域,为计算机算法管理提供了良好的思路。后续可优化创新演化路径的构建方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号