首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 810 毫秒
1.
[目的/意义]从学术期刊中抽取其中的理论是对文献进行内容分析的前提,实现理论名称识别的自动化可以提高内容分析的效率。[方法/过程]将理论识别视为一类命名实体识别问题,总结现有的命名实体识别的常用方法,提出一个基于语义泛化思想的命名实体识别方法,选取词性、知网义原等外部知识,采用CRF模型对《情报学报》1822篇论文的标题和摘要进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。  相似文献   

2.
[目的/意义]针对中文语言表达特点,提出一种含分词标签的字粒度词语特征提取方法,有效提升了中文临床病历命名实体识别任务的F1值,同时该方法可以为其他中文序列标注模型所借鉴。[方法/过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征,构筑字粒度序列标注模型的临床病历训练文本,语料来源CCKS2017:Task2。在不同特征组合方式下,采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。[结果/结论]在四种不同词语特征组合下,Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升,四折交叉测试中F1值平均提升了0.23%。实验表明在中文分词技术日趋成熟的环境下,Method2相对Method1能够获得更好的词语特征表示,对中文字粒度序列标注模型的处理性能具有提升作用。  相似文献   

3.
中文电子病历的分词及实体识别研究   总被引:1,自引:0,他引:1  
[目的/意义]健康医疗大数据是我国重要的基础性战略资源,本研究对中文电子病历分词与实体识别的探讨与实证较好地完成了医疗数据的信息抽取任务,对今后医疗大数据在语义层面的应用发展具有重要意义。[方法/过程]本研究首先融合权威词表、官方标准、健康网站数据及其他医学补充词库构建了词语数量级达到10万的医学词表;然后对电子病历的字段进行分词,对比了jieba工具、导入词典后的jieba、无监督学习及AC自动机4种模型的分词效果;最后,以自动分词和人工标注结果为语料,实现基于条件随机场的电子病历实体识别研究,并比较不同实体类别以及不同文本特征下的实体识别效果,选出最优模板。[结果/结论]分词结果显示,AC自动机的效果最好,F值可达82%;实体识别结果表明,"检查"和"疾病"实体的识别效果最好,而"症状"的识别效果不太理想。  相似文献   

4.
[目的/意义]在线医疗信息抽取是实现医疗信息检索、医疗信息推荐、个人医疗健康提醒及警示、疾病诊断、公众健康监控、药物不良反应挖掘等服务的基础环节,而医疗实体抽取则是在线医疗信息抽取的首要工作。本文拟解决传统医疗实体抽取严重依赖于人工特征提取且效率低的问题。[方法/过程]以网络文本为研究对象,首先对医疗实体类型和医疗实体抽取的目标进行描述。将在线医疗文本中的医疗实体抽取任务看作序列标注问题来解决,通过对CNN模型和BiLSTM模型基础理论的探讨,构建基于混合深度学习模型CNN-BiLSTM的医疗实体抽取框架。[结果/结论]通过三组对比实验,验证了本文所使用的CNN-BiLSTM模型在医疗实体抽取任务中的有效性。  相似文献   

5.
[目的/意义] 在专利分析中引入Knowledge Graph,将专利内容转换为由Knowledge Graph中实体语义关系所构成的图结构,进而探索该形式的专利表示方法在识别专利诉讼案中专利证据的可行性。[方法/过程] 在专利内容转换过程中,首先采用自动术语识别方法提取其实体指称,并通过实体链接将实体指称转化为命名实体,进而根据图算法识别出该专利的隐含实体,最终形成该专利所对应的图结构。[结果/结论] 将该专利表示方式应用于硬盘驱动器领域来寻找专利诉讼案中可用的证据专利,实证结果表明,与当前主流的专利文本表示方式相比,该方法在寻找证据专利效果上有较大提升。  相似文献   

6.
[目的/意义]为更好地提升科技文献的语义丰富化效果,对国内外科技文献语篇元素标注模型、技术和方法进行调研总结,为文本挖掘、科技论文知识抽取、语义分析系统研究者提供借鉴。[方法/过程]利用学术网站搜索和相关数据库搜索引擎,对涉及科技论文标注、语篇元素、知识抽取、句子识别和自动文章分类等参考文献以及研究报告进行深入阅读和调研,对语篇元素自动标注模型以及相关工作进展进行研究总结。[结果/结论]科技文献语篇元素标注具有非常重要的实际应用价值,构建标注模型需充分考虑构建思想、标注领域和标注粒度以及标注技术手段等方面。  相似文献   

7.
[目的/意义]技术创新服务平台的建设中需要智能搜索引擎技术,智能搜索引擎技术的内涵或者说重点在于自动语义标注.技术创新服务平台上对搜索引擎的要求,与大众的搜索引擎的需求还是不同的,处理的对象主要是专业领域的文本,通过语义标注技术,能快速对企业文档进行语义化和结构化组织,从而为企业提供精准的知识服务.[方法/过程]针对专业领域语义标注的相关问题,在进行深入研究与探讨的基础上,将语义标注理解为是对一组文档资源进行组织语义化的过程,提出利用结构化语义概念资源或集合对数字化文本进行自动标引的方法,并根据概念实体出现频次、位置和关系等因素,自动抽取相关语义概念集合,实现相关文本的语义内容的自动标注.[结果/结论]评价语义标注相关实验的效果,展示语义标注的具体应用场景.同时,体现领域本体与语义标注语料不断更新、进化、形成互动的过程,旨在为专业领域的语义自动标注及智能搜索引擎的构建提供有益的参考.  相似文献   

8.
学术文献引文上下文自动识别研究   总被引:2,自引:2,他引:0  
[目的/意义] 引文内容分析能够帮助揭示文献引用关系的深层语义内涵,而引文上下文识别作为引文内容分析的基础显得尤为重要。[方法/过程] 梳理已有引文上下文研究的现状,总结当前引文上下文识别的不足,在此基础上归纳引文上下文识别的5类特征,并采用文本分类和序列标注两种方法开展引文上下文自动识别实验。[结果/结论] 实验结果表明,本文提出的特征能够很好地提升引文上下文识别效果,且基于文本分类的SVM分类效果要优于基于序列标注的CRF。  相似文献   

9.
[目的/意义] 为解决现有网页文本缺乏起源标注的问题,提出一种借助PROV本体发现相似网页文本起源关系的方法。[方法/过程] 通过聚类算法、自动语义标注和关联数据构建等技术的综合应用,结合PROV-POL溯源模型,检测网页文本实体的演变过程,实现文本级和属性级两级溯源方案。[结果/结论] 实验验证了借助语义网技术和数据溯源模型实现网页文本数据溯源的可行性,但实验过程中聚类算法的召回率有待提高。  相似文献   

10.
[目的/意义]面向专利文本进行更细粒度的技术实体识别和技术预测,利于更详细地把握专利技术布局与趋势。[方法/过程]首先利用深度学习方法自动识别专利技术术语类实体,通过实验对比多组深度学习算法的优劣。其次,提出新的半监督标注和自定义标注方案,提高人工标注效率。最后,执行训练得到的最优模型,结合链路预测方法,对合成生物技术进行细粒度的技术预测。[结果/结论]实证结果表明RoBERTa-BiLSTM-CRF模型更适用于语义复杂的专利技术实体识别,F1值可达到86.8%,技术识别结果比传统IPC分析方法更精细。同时,细粒度的技术预测结果表明,合成生物学的合成方法在不断改进创新,合成物研究向合成燃料发展。  相似文献   

11.
[目的/意义]现有新闻文档实体排序研究大多以文档或实体为中心,如文本分类、实体链接等,关注实体在文本中的重要性的研究较少,本研究探讨基于重要性的新闻文档实体排序。[方法/过程]给定一篇文档,判断文档中实体相对文档而言的重要性,并基于此对实体进行排序。在搜狗全网新闻数据集上进行实验,并利用NDCG和逆序对比率两个指标对实体排序结果进行评价。[结果/结论]实验结果表明,基于实体频率、TF*IDF、信息熵、TextRank等的方法以及集成方法都达到了较好的效果,基于聚集系数的方法效果一般。其中基于TF*IDF的方法NDCG值为95.86%,是该指标下的最好结果;基于集成方法的逆序对比率值为84.46%,是该指标下的最好结果。  相似文献   

12.
[目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义。[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型,从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论]在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%,证实了深度学习应用于大规模文本数据集的可行性。  相似文献   

13.
利用实体解析的跨社交媒体同一用户识别   总被引:1,自引:0,他引:1  
[目的/意义] 跨领域关联实体一直是实体解析研究的主题,本文旨在不同的社交媒体(跨社交媒体)中找到属于同一用户的账户。[方法/过程] 在传统近似字符串匹配技术的基础上,提出使用属性值结合社交媒体中的链接和文本内容的方法,比较两个不同社交媒体账户的属性相似度、邻域相似度和关键词相似度这三个匹配函数,以此提高识别这两个账户是否是同一个人的精确度。并利用社交媒体Facebook和Twitter数据作为实验数据集,针对匹配函数的不同组合进行试验。[结果/结论] 结果表明,三个匹配函数的组合能够得到更多的账户匹配为同一用户,同时精确度也很高,达到0.923。本文提出的方法在Facebook和Twitter上的成功运用,给其他社交媒体平台或者其他领域的实体关联的研究提供了一条新的路径。  相似文献   

14.
旨在实现对给定的实体对象集匹配出尽可能宽的实体对象面,以帮助用户快速找到相关信息,尤其是那些需动态整合的特定领域的语义关联信息。分析Web文档中的实体对象结构及其关系,并借助Schema.org方案中的语义分类思想,提出构建具有语义特性的实体对象数据库建设方案。基于该数据库提出一个自适应的实体对象检索框架,该框架能对用户的查询意图进行分析并进行语义分类,形成一条条涵盖实体对象的查询语句,接着“智能地”选择、执行某些具有优先权的查询语句以匹配出那些保存在事实数据库中的相关实体对象。本研究旨在一定程度上实现“滚雪球”式的高效检索思想,满足智能检索技术的需求,促进以实体对象作为研究对象的情报理论研究工作的开展,并为智能情报检索技术的应用规划提供有用参考。  相似文献   

15.
科研实体唯一标识系统研究   总被引:1,自引:0,他引:1  
贤信  曾建勋 《图书情报工作》2015,59(12):113-119
[目的/意义] 从科研实体间的关联关系出发,构建科研实体唯一标识符的关联元数据框架,分析科研实体唯一标识系统的运行及应用机制,为我国开展科研实体唯一标识项目提供建议。[方法/过程] 利用文献调研现有科研实体唯一标识符项目概况及其发展历程,通过网站调研分析各类科研实体唯一标识符的元数据结构以及唯一标识符系统的运行机制;通过对各大数据库系统的使用实践验证该系统科研实体的关联方式与效果。[结果/结论] 构建以实体唯一标识符为节点的关联元数据框架,形成以“ID”为中心的科研实体网络格局。指出科研实体唯一标识符系统应完善页面功能和后台功能、强化数据质量控制、加强应用机制建设;我国相关个人与机构应提高自觉标识的意识,加强科研实体唯一标识系统间的关联,强化科研实体唯一标识符的应用与共享,实现科研实体的一体化标识标注。  相似文献   

16.
综述命名实体识别与翻译研究现状,提出基于信息抽取的命名实体识别与翻译方法,以及对该方法进行一系列集成优化处理,并实现了基于命名实体识别与翻译的跨语言信息检索实验。实验结果显示出命名实体识别与翻译在跨语言信息检索中的重要性,并证明了所提出的翻译加权和网络挖掘未登录命名实体方法的应用能显著提高跨语言信息检索的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号