首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 730 毫秒
1.
刘佳  边俊伊 《现代情报》2023,(11):37-46
[目的/意义]针对藏医古籍知识组织与开发不足的问题,利用混合深度学习方法构建面向藏医古籍的命名实体识别模型,为藏医古籍知识的深度开发与利用提供方法支持。[方法/过程]根据藏医古籍知识特点,构建ALBERT-BiLSTM-CRF模型。以《四部医典》为数据集,在人工标注与文本预处理的基础上,进行命名实体识别实验,并将实验结果与其他3种常见模型进行对比分析。[结果/结论]ALBERT-BiLSTM-CRF模型对藏医古籍实体识别效果最好,F1-score达到96.28%,与其他方法相比提升约7个百分点。  相似文献   

2.
丁浩  孔令圆  刘清  胡广伟 《现代情报》2023,(11):135-145
[目的/意义]本文针对农业领域提出一种基于融合多重特征词嵌入模型的农业命名实体识别方法,以提高识别准确度。[方法/过程]通过使用结合字符、位置语义、领域知识字典特征等多重特征向量作为嵌入层,充分考虑字符的位置信息和上下文语义信息,并根据农业领域的中文实体的特点改进了单一字符向量嵌入,获得更多的农业实体特征,同时采用双向长短时记忆网络BiLSTM和多头注意力机制来学习文本的长距离依赖信息,再利用条件随机场CRF获得全局最优标注序列。[结果/结论]本文在农业领域中文实体语料数据集中与9种基于基线方法进行对比实验,模型的Precision为92.2%,Recall为92.0%,F1值为92.11%,均优于其他基线模型,说明本文模型对于中文农业命名实体识别更精确。  相似文献   

3.
命名实体识别(Named Entity Recognition)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等.首先对我国关于命名实体识别研究的文献进行了总结,给出命名实体识别的主要方法及模型.并针对文献中对这些命名实体识别方法的效果进行统计分析,探讨各种识别对象、识别模型的效果及适用性.经过对现有研究文献的统计,结论为:在不考虑运行效率的情况下,对于机构名,识别效果最好的是层叠CRF模型;对于地名,测试效果最好的是CRF方法与专家知识相结合;人名识别方法中表现不错的则是边界模版和局部统计相结合的模型.  相似文献   

4.
任妮  鲍彤  沈耕宇  郭婷 《情报科学》2021,39(11):96-102
【 目的/意义】开展面向领域的细粒度命名实体识别研究对于提升文本挖掘精度具有重要的意义,本文以番 茄病虫害命名实体为例,探索采用深度学习技术实现面向领域的细粒度命名实体识别研究方法。【目的/意义】文章 以电子书、论文、网页作为数据源,选择品种、病虫害、症状、时间、部位、防治药剂六类实体进行标注,利用BERT和 CBOW 预训练字向量分别输入 BiLSTM-CRF 模型训练,并在识别后补充规则控制实体的边界。【结果/结论】 BERT预训练的字向量和BiLSTM-CRF结合,在补充规则控制后F值达到了81.03%,优于其它模型,在番茄病虫害 领域的实体识别中具有较好的效果。【创新/局限】BERT预训练的字向量可以有效降低番茄病虫害领域实体因分 词错误带来的影响,针对不同实体的特点,补充规则可以有效控制实体边界,提高识别准确率。但本文的规则补充 仅在测试阶段,并没有加入训练过程,整体的准确率还有待提高。  相似文献   

5.
[目的/意义]精准识别潜在专利技术组合,将相互关联的技术组成保护范围更大的专利网,对于打破单项专利的局限性、构建更为缜密的技术壁垒具有重要意义。[方法/过程]首先在对关键词与核心IPC进行语义抽取的基础上,筛选出核心专利集合,然后计算基于专利相似性与互补性的专利组合强度,最后利用MCL聚类算法直观、精准地识别潜在专利组合,并以艾滋病疫苗领域专利对方法进行了验证。[结果/结论]该方法以核心专利集合为数据源有效降低了组合识别中的噪音,基于多维度的专利组合强度计算克服了以往组合识别指标的片面性,利用MCL聚类算法无需人为规定簇群数量,保证识别质量。  相似文献   

6.
[目的/意义]基于数据科学与情报学领域的密切联系,对数据科学任职要求知识进行深入挖掘,有利于掌握社会对于情报学相关领域人才的需求,从而完善情报学教育的培养方案,帮助实现社会需求与高校教育的良好对接。[方法/过程]文章采集了国内主流招聘网站中数据科学相关工作岗位的招聘信息,并对数据进行解析、去重等清洗工作,对招聘信息中的任职要求实体进行人工标注,比较了LSTM,BiLSTM-CRF和BERT三种深度学习模型应用于实体识别的效果。[结果/结论]结果表明,BiLSTM-CRF模型对任职要求实体的识别效果最好,相较于其他两种深度学习模型具有一定的优势。文章根据抽取出的任职要求实体从实践能力、学历要求、脚本语言、数据处理、综合素质等方面总结了目前情报学人才应当具备的技能和素质,并由此提出了针对情报学教育的人才培养方案。  相似文献   

7.
[目的/意义]提出一种基于异质信息网络的电子政务平台治理辅助决策技术方法,提升电子政务平台建设绩效。[方法/过程]首先,在领域知识规范下,利用命名实体识别、关系抽取技术在委局级电子政务平台承载的多项目非结构化数据中获取项目相关的7类核心实体对象及其关系,进而表示出电子政务平台异质信息网络的网络模式并基于该模式完成实例化,得到电子政务平台的异质信息网络;其次,运用文章提出的MultiPathSim算法分别计算单个电子政务项目和平台中其他多个电子政务项目的相似度并将结果可视化;最后,利用统计分析方法得到平台中的项目实体概念间的关联关系。[结果/结论]利用数据挖掘新技术结合知识管理的方法针对电子政务平台治理的问题发现具有实际价值。文章提出的方法可以有效发现电子政务平台中的功能重复建设问题及多项目间的实体关联关系,为电子政务平台治理提供了一种有效的辅助决策技术方法。  相似文献   

8.
[目的/意义]构建基于LDA的企业竞争对手识别模型,在海量同领域企业中精准识别竞争对手,剖析其技术发展领域,为企业制定竞争策略提供情报支撑。[方法/过程]首先,根据技术领域与目标企业下载专利数据;其次,将目标企业与相同技术领域企业专利数据合并,对专利摘要进行主题建模并借助LDAvis可视化工具与相对接近度计算识别潜在竞争对手;最后,借助LDA模型、困惑度与主题相似度计算潜在竞争对手技术多样化指数(TD)与技术专业化指数(TS),通过竞争力气泡图识别竞争对手类型,从而完成竞争对手识别模型的构建。[结果/结论]构建的企业竞争对手识别模型可以较好地识别出目标企业的竞争对手,并建议目标企业应积极对标竞争对手的技术领域,制定相应发展战略,从而促进企业在激烈的市场竞争中脱颖而出。  相似文献   

9.
[目的/意义]科学准确识别关键共性技术对企业和国家来说都是至关重要的战略议题。[方法/过程]文章提出了一种基于专利文献分析的关键共性技术识别框架,运用文本挖掘和技术演化分析方法,获取特定领域的关键共性技术。首先,使用Viterbi算法识别专利文献中的专业术语,通过LDA算法捕捉专利文献中的技术主题聚类;其次,通过将技术主题的共类特征数值化,作为共性程度的度量;随后,将技术主题节点在技术演化转移网络中的关键程度作为技术关键性的表征,并使用PageRank算法衡量技术主题的关键性。最后,以机器人及数控机床技术为例,验证了该方法的可行性和有效性。[结果/结论]该方法可实现高效、准确的关键共性技术识别,为国家制定创新扶持政策提供支撑。[局限]研究仍需扩大科技文献的收集范围,以实现更全面的关键共性技术识别。  相似文献   

10.
[研究目的]为提高专利知识图谱构建的自动化水平,并实现知识服务与交易服务的融合,提出了面向供需信息挖掘的供需知识图谱(PSD-KG)的构建思路。[研究方法]知识图谱规划方面,对专利交易涉及实体及关系进行了拓展,规划了共由12类实体和14类关系组成的PSD-KG。知识图谱构建方法上,建立专利领域词典以实现语料自动化标注,并提出了基于BERT-BiLSTM-CRF模型的语义实体识别方法。[研究结论]与传统的CRF、BiLSTM-CRF模型对比发现,该文模型的准确率、召回率和F1指数均高于85%,验证了方法的有效性;以燃料电池领域为例构建PSD-KG,通过技术供需热点识别及演化研究,识别出三类技术热点,包括:持续热门技术点、新兴热门技术点和潜在热点技术;并在交易网络分析、供需信息检索等方面挖掘新应用场景。研究成果也为专利交易推荐提供了知识库。  相似文献   

11.
王仁武  孟现茹  孔琦 《现代情报》2018,38(10):57-64
[目的/意义]研究利用深度学习的循环神经网络GRU结合条件随机场CRF对标注的中文文本序列进行预测,来抽取在线评论文本中的实体-属性。[方法/过程]首先根据设计好的文本序列标注规范,对评论语料分词后进行实体及其属性的命名实体标注,得到单词序列、词性序列和标注序列;然后将单词序列、词性序列转为分布式词向量表示并用于GRU循环神经网络的输入;最后输出层采用条件随机场CRF,输出标签即是实体或属性。[结果/结论]实验结果表明,本文的方法将实体-属性抽取简化为命名实体标注,并利用深度学习的GRU捕获输入数据的上下文语义以及条件随机场CRF获取输出标签的前后关系,比传统的基于规则或一般的机器学习方法具有较大的应用优势。  相似文献   

12.
[目的/意义]为了帮助情报学学科背景的就业人员掌握市场对情报学人才的具体需要,为情报学的教育者拟定情报学的教育体系和人才培养的目标提供指导。[方法/过程]采集国内各大招聘网站情报学相关职位招聘公告,构建情报学招聘语料库,基于CRF机器学习模型和Bi-LSTM-CRF、BERT、BERT-Bi-LSTM-CRF深度学习模型,从语料库中抽取5类情报学招聘实体进行挖掘分析。[结果/结论]通过在已有2000篇经过标注的职位招聘公告语料库上开展情报学招聘实体自动抽取对比实验,识别效果最佳的CRF模型的整体F值为85.07%,其中对"专业要求"实体的识别F值达到了91.67%。BERT模型在"专业要求"实体识别任务中更是取得了92.10%的F值。使用CRF模型对全部符合要求的5287篇招聘公告进行实体抽取,构建了情报学招聘实体社会网络,并通过信息计量分析与社会网络分析的方式挖掘隐含知识。  相似文献   

13.
One strategy to recognize nested entities is to enumerate overlapped entity spans for classification. However, current models independently verify every entity span, which ignores the semantic dependency between spans. In this paper, we first propose a planarized sentence representation to represent nested named entities. Then, a bi-directional two-dimensional recurrent operation is implemented to learn semantic dependencies between spans. Our method is evaluated on seven public datasets for named entity recognition. It achieves competitive performance in named entity recognition. The experimental results show that our method is effective to resolve nested named entities and learn semantic dependencies between them.  相似文献   

14.
潘正高 《情报科学》2012,(5):708-712,786
介绍命名实体识别在文本信息处理领域的重要地位,分析了中文命名实体识别存在的困难,介绍中文命名实体识别的一般过程、评价标准及方法。提出了一种在构造内部规则和外部规则的同时采用概率统计的中文命名实体的识别方法,并利用这种基于规则和统计相结合的方法。实验证明该方法获得了较高的准确率和召回率,具有可行性和合理性,同时也指出了它的局限性。  相似文献   

15.
[目的/意义] 从跨语言视角探究如何更好地解决低资源语言的实体抽取问题。[方法/过程] 以英语为源语言,西班牙语和荷兰语为目标语言,借助迁移学习和深度学习的思想,提出一种结合自学习和GRU-LSTM-CRF网络的无监督跨语言实体抽取方法。[结果/结论] 与有监督的跨语言实体抽取方法相比,本文提出的无监督跨语言实体抽取方法可以取得更好的效果,在西班牙语上,F1值为0.6419,在荷兰语上,F1值为0.6557。利用跨语言知识在源语言和目标语言间建立桥梁,提升低资源语言实体抽取的效果。  相似文献   

16.
[目的/意义] 在信息检索、科技论文评价和知识结构演化方面,引文分析都起着至关重要的作用。随着格式化全文数据库的出现,引文分析迈入了4.0时代——全文引文分析阶段。但是,目前还没有中文的格式化全文数据库,这极大地制约了全文引文分析在我国科技文献中的研究和应用。[方法/过程] 在本文中我们提出建立高效的中文全文引文分析依赖的数据集和检索平台的方法,主要包括:1)提出了基于规则和SVM分类方法的论文元数据和引用提取方法;2)提出基于Spark平台的实现高效引文内容分析标准化数据集生成方法;3)提出建立引用内容的科技文献检索平台。[结果/结论] 引文内容分析标准化数据集的建立将全面提升全文引文分析在我国科技领域中的研究效能,提高科技文献查找精度。  相似文献   

17.
Named entity recognition aims to detect pre-determined entity types in unstructured text. There is a limited number of studies on this task for low-resource languages such as Turkish. We provide a comprehensive study for Turkish named entity recognition by comparing the performances of existing state-of-the-art models on the datasets with varying domains to understand their generalization capability and further analyze why such models fail or succeed in this task. Our experimental results, supported by statistical tests, show that the highest weighted F1 scores are obtained by Transformer-based language models, varying from 80.8% in tweets to 96.1% in news articles. We find that Transformer-based language models are more robust to entity types with a small sample size and longer named entities compared to traditional models, yet all models have poor performance for longer named entities in social media. Moreover, when we shuffle 80% of words in a sentence to imitate flexible word order in Turkish, we observe more performance deterioration, 12% in well-written texts, compared to 7% in noisy text.  相似文献   

18.
Named entity recognition (NER) is mostly formalized as a sequence labeling problem in which segments of named entities are represented by label sequences. Although a considerable effort has been made to investigate sophisticated features that encode textual characteristics of named entities (e.g. PEOPLE, LOCATION, etc.), little attention has been paid to segment representations (SRs) for multi-token named entities (e.g. the IOB2 notation). In this paper, we investigate the effects of different SRs on NER tasks, and propose a feature generation method using multiple SRs. The proposed method allows a model to exploit not only highly discriminative features of complex SRs but also robust features of simple SRs against the data sparseness problem. Since it incorporates different SRs as feature functions of Conditional Random Fields (CRFs), we can use the well-established procedure for training. In addition, the tagging speed of a model integrating multiple SRs can be accelerated equivalent to that of a model using only the most complex SR of the integrated model. Experimental results demonstrate that incorporating multiple SRs into a single model improves the performance and the stability of NER. We also provide the detailed analysis of the results.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号