序列标注模型中的字粒度特征提取方案研究——以CCKS2017:Task2临床病历命名实体识别任务为例 |
| |
引用本文: | 孙安,于英香,罗永刚,王祺.序列标注模型中的字粒度特征提取方案研究——以CCKS2017:Task2临床病历命名实体识别任务为例[J].图书情报工作,2018,62(11):103-111. |
| |
作者姓名: | 孙安 于英香 罗永刚 王祺 |
| |
作者单位: | 1. 上海大学图书情报档案系 上海 200444;
2. 河南科技大学图书馆 洛阳 471023;
3. 上海健康医学院医疗器械学院 上海 201318;
4. 华东理工大学计算机科学与技术系 上海 200237 |
| |
基金项目: | 本文系国家社会科学基金一般项目"'区域-国家’电子文件管理整合模型构建与实证研究"(项目编号:11BTQ039)研究成果之一。 |
| |
摘 要: | 目的/意义]针对中文语言表达特点,提出一种含分词标签的字粒度词语特征提取方法,有效提升了中文临床病历命名实体识别任务的F1值,同时该方法可以为其他中文序列标注模型所借鉴。方法/过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征,构筑字粒度序列标注模型的临床病历训练文本,语料来源CCKS2017:Task2。在不同特征组合方式下,采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。结果/结论]在四种不同词语特征组合下,Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升,四折交叉测试中F1值平均提升了0.23%。实验表明在中文分词技术日趋成熟的环境下,Method2相对Method1能够获得更好的词语特征表示,对中文字粒度序列标注模型的处理性能具有提升作用。
|
关 键 词: | 命名实体识别 字粒度 特征提取 序列标注模型 条件随机场 临床病历 |
收稿时间: | 2017-10-24 |
|
| 点击此处可从《图书情报工作》浏览原始摘要信息 |
| 点击此处可从《图书情报工作》下载免费的PDF全文 |
|