首页
|
本学科首页
官方微博
|
高级检索
全部专业
教育
科学、科学研究
世界各国文化与文化事业
体育
文化理论
信息与知识传播
学报及综合类
按
中文标题
英文标题
中文关键词
英文关键词
中文摘要
英文摘要
作者中文名
作者英文名
单位中文名
单位英文名
基金中文名
基金英文名
杂志中文名
杂志英文名
栏目英文名
栏目英文名
DOI
责任编辑
分类号
杂志ISSN号
检索
面向专利的化合物和生物实体识别系统
引用本文:
赖鸿昌,朱礼军,徐硕.面向专利的化合物和生物实体识别系统[J].情报工程,2015,1(4):095-103.
作者姓名:
赖鸿昌
朱礼军
徐硕
作者单位:
中国科学技术信息研究所信息技术支持中心,中国科学技术信息研究所信息技术支持中心,中国科学技术信息研究所信息技术支持中心
基金项目:
国家自然科学基金项目“基于论文和专利资源的技术机会发现研究” (项目编号:71403255)、中国科学技术信息研究重点工作项目“大数据环境下融合多源信息的科技文献智能分析服务平台建设及应用示范”(编号:ZD2014-7-1)
摘 要:
探索专利文献中的化合物和生物知识变得至关重要。为了识别化合物实体和生物实体,开发了面向专利的化合物和生物实体识别系统。系统基于开源的机器学习和自然语言工具进行开发。系统按照流水线模式进行,本文将详细阐述其三个主要过程:预处理(句子分割、词条化),识别(基于条件随机场的方法),后处理(基于规则的方法)。最后,利用系统在已标注的化合物专利语料库进行大量实验,进行十折交叉验证,得到了 69.20% 的 F 值。但是,从结果可以看到,在专利文献上的实验表现,要低于论文和新闻语料库中的表现。
关 键 词:
条件随机场,化合物和生物实体,专利挖掘,交叉验证
Chemical and Biological Entity Recognition System from Patent Documents
Authors:
LAI Hongchang
ZHU Lijun and XU Shuo
Abstract:
Keywords:
Conditional Random Field (CRF)
chemical and biological entity recognition
patent mining
cross validation
点击此处可从《情报工程》浏览原始摘要信息
点击此处可从《情报工程》下载
免费
的PDF全文
设为首页
|
免责声明
|
关于勤云
|
加入收藏
Copyright
©
北京勤云科技发展有限公司
京ICP备09084417号