首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
介绍命名实体识别的基本概念,分析两种命名实体识别的基本方法:基于规则的命名实体识别方法和基于统计的命名实体识别方法,并以最大熵模型为理论基础,对中文菜名识别进行实证研究。根据中文命名实体的特点,设计6种特征模板。实验结果表明,在简单特征模板的基础上增加标注特征能有效提高命名实体的识别效果。对改进识别效果有用的特征依次为:标注特征、词性组合特征、后向词性依赖特征和词形特征。  相似文献   

2.
基于本体的汉语领域命名实体识别   总被引:1,自引:0,他引:1  
命名实体识别是众多自然语言处理任务的核心内容之一,也是近年来的领域研究热点.本文将命名实体分为两大类:常规命名实体和领域命名实体.基于已经构建的领域本体MPO,本文提出一种基于本体知识规则与统计方法相结合的领域命名实体识别方法.该方法通过本体化实例,获取实体构成词性规则模板,结合CRFs机器学习模型,进行领域命名实体识别.实验结果表明:相比运用单一统计方法而言,该方法能使领域实体的识别性能显著提高,F值达到92.36%.同时表明本体化知识规则的有效运用,能够在领域实体边界和特殊形式领域实体识别的准确率上发挥积极作用.  相似文献   

3.
本文通过研究开源自然语言处理平台GATE和条件随机场模型,提出一种高效的电子产品领域命名实体识别策略,为实习项目中的初步工作--通过计算机智能方法识别出电子产品领域的产品品牌、属性等命名实体提出解决方案,并为下一步可能开展的领域内自动问答系统等高层应用提供底层支撑.该方法是基于层叠模型的规则与统计相结合的新的方法,分别继承了基于规则和基于统计识别方法的优点.最终,通过分析电子产品领域自身的领域特点实现了如品牌、重量等二十余种命名实体的识别.对比实验结果表明,该系统达到了令人满意的识别效果.  相似文献   

4.
本文提出了生物医学实体评价,并采用信息计量学中的共词分析予以实现.首先,以基于机器学习的识别方法为主,结合基于字典和基于启发式规则的识别方法,完成科研文献中生物医学实体的识别;进而,在生物医学实体识别基础上构建生物医学实体共现网络;最后,通过生物医学实体共现网络分析实现生物医学实体的评价.  相似文献   

5.
方志类古籍地名识别及系统构建   总被引:4,自引:0,他引:4  
以地方志资料汇编<方志物产>(广东分卷)为语料,设计并构建了古籍地名识别系统.采用规则与统计相结合的命名实体识别方法,实现了物产地名的自动识别.分析了命名实体识别技术在中国方志类古籍整理中的应用前景,为方志类古籍进行数字化整理、挖掘物产分布、物产引进和传播等相关研究提供了新的途径.  相似文献   

6.
为了识别突发事件发生的地点信息,提出基于规则推理的地名实体识别方法。首先给出了突发事件地名实体的定义,进而从辖区范围变化规律、所处位置分布规律、多地名实体同现的情形等方面分析了突发事件地名实体在Web新闻中的表达特征;构造了突发事件地名实体的多个识别规则,并提出事件发生地点的判断方法;最后开发了突发事件地名实体自动识别系统,并在其基础上进行试验,结果表明识别精确率达到95.1%,方法高效、可行。  相似文献   

7.
[目的 /意义]提出一种潜在学科交叉主题识别方法,主要开展学科交叉主题识别与知识融合测度两方面的研究,以识别处于知识融合潜伏期和萌芽期的潜在学科交叉主题。[方法 /过程]首先,设计并提出学科关联实体抽取规则,构建基于学科关联实体的学科交叉潜力计算方法,以实现学科交叉主题识别,解决潜在交叉点识别的问题;其次,构建以融合强度、融合广度、融合深度为中心的学科交叉主题知识融合阶段特征测度指标与方法,以揭示知识融合过程;最后,基于交叉主题知识融合阶段特征与判断规则,识别处于潜伏期与萌芽期的潜在学科交叉主题。[结果 /结论 ]以合成生物学和水稻遗传改良领域为例,开展潜在学科交叉主题识别研究,以验证方法的可行性。结果表明,提出的方法能够识别学科领域之间的潜在交叉主题,为高效探测有潜力的学科交叉研究领域,发掘未来的研究发展动向和机会提供可能。  相似文献   

8.
[目的/意义]从学术期刊中抽取其中的理论是对文献进行内容分析的前提,实现理论名称识别的自动化可以提高内容分析的效率。[方法/过程]将理论识别视为一类命名实体识别问题,总结现有的命名实体识别的常用方法,提出一个基于语义泛化思想的命名实体识别方法,选取词性、知网义原等外部知识,采用CRF模型对《情报学报》1822篇论文的标题和摘要进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。  相似文献   

9.
随着互联网经济的飞速发展,信息抽取领域的产品命名实体识别在商务智能领域有着广泛的应用。本文采用条件随机场(CRF)模型,选取词汇、词法和词形上一系列的特征进行训练,通过交叉验证对识别效果进行评价,并通过识别效果指导特征的选取。实验中比较了两种标注方式(BRAND/TYPE和PROD),并取得了令人满意的识别效果。在与最大熵模型对比中,验证了CRF模型对于产品实体识别的优越性。  相似文献   

10.
[目的/意义] 在专利分析中引入Knowledge Graph,将专利内容转换为由Knowledge Graph中实体语义关系所构成的图结构,进而探索该形式的专利表示方法在识别专利诉讼案中专利证据的可行性。[方法/过程] 在专利内容转换过程中,首先采用自动术语识别方法提取其实体指称,并通过实体链接将实体指称转化为命名实体,进而根据图算法识别出该专利的隐含实体,最终形成该专利所对应的图结构。[结果/结论] 将该专利表示方式应用于硬盘驱动器领域来寻找专利诉讼案中可用的证据专利,实证结果表明,与当前主流的专利文本表示方式相比,该方法在寻找证据专利效果上有较大提升。  相似文献   

11.
贾君枝  冯婕 《图书情报工作》2017,61(12):122-128
[目的/意义] 挖掘不同名称数据之间的关联关系,将关于某一实体或主题的领域知识表现出来,这对实现不同层次、不同粒度的知识体系的解构和重构、提供满足多种需求的知识服务工作具有重要的研究意义。[方法/过程] 提出一种基于人物实体数据运行关联规则挖掘实验的研究框架,通过对人物实体条目的抽取、预处理及属性识别与分类等处理方法,利用R语言得到人物实体集的关联规则,实现多种名称数据的关联,最后从Wikidata知识库提取113位诺贝尔文学奖得主的实体条目进行实证分析。[结果/结论] 分析右部为地点名称、机构名称、时间名称和主题名称等4种不同类型规则的关联特征,实现不同名称数据类型的关系挖掘问题。本研究可为知识的揭示、聚合和关联提供新的视角,探索了数据挖掘技术在名称数据中的应用。  相似文献   

12.
本文介绍了一种基于规则的识别未登录化学物质名词的方法.通过对大量的化学物质名称进行观察后,发现化学领域中的物质命名有一定的规律可循.本文通过化学物质命名的常用词及规律进行总结,将化学特定词分为3类:化学介词、化学词头和化学符号,制定六项规则,提出了对化学物质名称基于规则的识别方法.在系统实现方面,应用正则表达式将规则结合模板表示出来,从文本信息中提取特定的化学物质专用特征词,同时进行了可行性实验,经过对比,验证了规则的可行性.  相似文献   

13.
提出人才网页自动识别系统设计,实现对Nutch定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的URL特征、网页Title标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM实现基于多特征值的人才网页自动识别。  相似文献   

14.
为了提高信息抽取过程中的语义深层次的理解和准确率,本文提出了一种基于领域本体和语块分析的语义信息抽取方法,在详细说明其信息抽取模型的基础上,重点针对命名实体识别、词性组合模板、基于本体的三元组和二元组规则等关键问题进行了深入的分析和研究,提出了相应的解决方法,并进行了相关试验性研究.结果表明:采用本文所述的系统结构及其技术构建文本信息抽取系统是可行的,其能在深层次语义理解的基础上进一步提高信息抽取的准确率.  相似文献   

15.
在对目前各种作者重名消解方法进行总结的基础上, 针对中文文献题录数据特征, 将重名消解问题转换为同名作者文献的分类问题, 提出一种基于规则和相似度的重名消解框架模型, 并对其中的分解规则和合并规则进行详细的算法描述, 最后选取3个学科的重名作者数据集进行实验, 实验结果表明该模型能有效提高作者重名消解的准确率.  相似文献   

16.
由于自然语言的复杂性,使得情感挖掘仍存在一些问题需要解决,如情感词的领域依赖性、隐式特征识别、同指特征处理和特征极性计算等。为解决这些问题,提出一种基于语义的情感挖掘方法,该方法以主题图为指导进行特征及情感词的识别和情感极性强度计算,充分利用特征之间及其特征与情感词之间的语义关系,可以在一定程度上提高意见挖掘的准确性。  相似文献   

17.
文阳  陈文宇  袁野  朱建 《图书情报工作》2014,58(20):125-130
认为传统的基于主题的链接过滤算法虽然在某一领域的主题爬虫中使用广泛,但该方法只关心抓取的网页与主题之间的相关性,忽略了网站自身链接的结构特点。提出基于域名的链接过滤算法,该方法对基于网页链接中域名的结构特点进行比较,同时以基于主题的链接过滤算法作为辅助,判断出无用的垃圾链接。与单一基于主题的链接过滤算法相比较,基于域名的链接过滤算法的判断方式更为全面,链接过滤效率更高,从而能有效地提高网络爬虫的抓取效率和情报检索的效率。最后,通过仿真实验证明该算法的有效性。  相似文献   

18.
万维网信息资源组织中域名的规范化问题   总被引:2,自引:0,他引:2  
宛玲 《情报学报》2001,20(1):26-31
域名在万维网信息资源组织中占有特殊的地位。本文分析了目前域名名称命名中所存在的问题 ,提出了改进域名信息服务功能的一些命名措施 ,指出域名应具有揭示站点信息资源的性质以及易于记忆的功能。  相似文献   

19.
基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究   总被引:2,自引:0,他引:2  
专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练字嵌入向量,融合BiLSTM和CRF的中文专业术语抽取模型。以自建的1278条深度学习语料数据为实验对象,该模型对术语提取的F1值为92.96%,相对于传统的浅层机器学习模型(如左右熵与互信息算法、word2vec相似词算法等)和BiLSTM-CRF深度神经网络模型的性能有较为显著的提升。本文也给出了模型应用的具体流程,能够为中文专业术语库的构建提供实践指南。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号