序列标注模型中的字粒度特征提取方案研究——以CCKS2017:Task2临床病历命名实体识别任务为例期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

序列标注模型中的字粒度特征提取方案研究——以CCKS2017:Task2临床病历命名实体识别任务为例

引用本文：	孙安,于英香,罗永刚,王祺.序列标注模型中的字粒度特征提取方案研究——以CCKS2017:Task2临床病历命名实体识别任务为例[J].图书情报工作,2018,62(11):103-111.

作者姓名：	孙安于英香罗永刚王祺

作者单位：	1. 上海大学图书情报档案系上海 200444; 2. 河南科技大学图书馆洛阳 471023; 3. 上海健康医学院医疗器械学院上海 201318; 4. 华东理工大学计算机科学与技术系上海 200237

基金项目：	本文系国家社会科学基金一般项目"'区域-国家’电子文件管理整合模型构建与实证研究"（项目编号：11BTQ039）研究成果之一。

摘要：	目的/意义]针对中文语言表达特点,提出一种含分词标签的字粒度词语特征提取方法,有效提升了中文临床病历命名实体识别任务的F₁值,同时该方法可以为其他中文序列标注模型所借鉴。方法/过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征,构筑字粒度序列标注模型的临床病历训练文本,语料来源CCKS2017：Task2。在不同特征组合方式下,采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。结果/结论]在四种不同词语特征组合下,Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升,四折交叉测试中F₁值平均提升了0.23%。实验表明在中文分词技术日趋成熟的环境下,Method2相对Method1能够获得更好的词语特征表示,对中文字粒度序列标注模型的处理性能具有提升作用。
关键词：	命名实体识别字粒度特征提取序列标注模型条件随机场临床病历
收稿时间：	2017-10-24

	点击此处可从《图书情报工作》浏览原始摘要信息
	点击此处可从《图书情报工作》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏