首页 | 本学科首页   官方微博 | 高级检索  
     检索      

面向专利的化合物和生物实体识别系统
引用本文:赖鸿昌,朱礼军,徐硕.面向专利的化合物和生物实体识别系统[J].情报工程,2015,1(4):095-103.
作者姓名:赖鸿昌  朱礼军  徐硕
作者单位:中国科学技术信息研究所信息技术支持中心,中国科学技术信息研究所信息技术支持中心,中国科学技术信息研究所信息技术支持中心
基金项目:国家自然科学基金项目“基于论文和专利资源的技术机会发现研究” (项目编号:71403255)、中国科学技术信息研究重点工作项目“大数据环境下融合多源信息的科技文献智能分析服务平台建设及应用示范”(编号:ZD2014-7-1)
摘    要:探索专利文献中的化合物和生物知识变得至关重要。为了识别化合物实体和生物实体,开发了面向专利的化合物和生物实体识别系统。系统基于开源的机器学习和自然语言工具进行开发。系统按照流水线模式进行,本文将详细阐述其三个主要过程:预处理(句子分割、词条化),识别(基于条件随机场的方法),后处理(基于规则的方法)。最后,利用系统在已标注的化合物专利语料库进行大量实验,进行十折交叉验证,得到了 69.20% 的 F 值。但是,从结果可以看到,在专利文献上的实验表现,要低于论文和新闻语料库中的表现。

关 键 词:条件随机场,化合物和生物实体,专利挖掘,交叉验证

Chemical and Biological Entity Recognition System from Patent Documents
Authors:LAI Hongchang  ZHU Lijun and XU Shuo
Abstract:
Keywords:Conditional Random Field (CRF)  chemical and biological entity recognition  patent mining  cross validation
点击此处可从《情报工程》浏览原始摘要信息
点击此处可从《情报工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号