首页 | 本学科首页   官方微博 | 高级检索  
     检索      

序列标注模型中的字粒度特征提取方案研究——以CCKS2017:Task2临床病历命名实体识别任务为例
引用本文:孙安,于英香,罗永刚,王祺.序列标注模型中的字粒度特征提取方案研究——以CCKS2017:Task2临床病历命名实体识别任务为例[J].图书情报工作,2018,62(11):103-111.
作者姓名:孙安  于英香  罗永刚  王祺
作者单位:1. 上海大学图书情报档案系 上海 200444; 2. 河南科技大学图书馆 洛阳 471023; 3. 上海健康医学院医疗器械学院 上海 201318; 4. 华东理工大学计算机科学与技术系 上海 200237
基金项目:本文系国家社会科学基金一般项目"'区域-国家’电子文件管理整合模型构建与实证研究"(项目编号:11BTQ039)研究成果之一。
摘    要:目的/意义]针对中文语言表达特点,提出一种含分词标签的字粒度词语特征提取方法,有效提升了中文临床病历命名实体识别任务的F1值,同时该方法可以为其他中文序列标注模型所借鉴。方法/过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征,构筑字粒度序列标注模型的临床病历训练文本,语料来源CCKS2017:Task2。在不同特征组合方式下,采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。结果/结论]在四种不同词语特征组合下,Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升,四折交叉测试中F1值平均提升了0.23%。实验表明在中文分词技术日趋成熟的环境下,Method2相对Method1能够获得更好的词语特征表示,对中文字粒度序列标注模型的处理性能具有提升作用。

关 键 词:命名实体识别  字粒度  特征提取  序列标注模型  条件随机场  临床病历  
收稿时间:2017-10-24
点击此处可从《图书情报工作》浏览原始摘要信息
点击此处可从《图书情报工作》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号