首页 | 本学科首页   官方微博 | 高级检索  
     检索      

PDF科技论文语义元数据的自动抽取研究
引用本文:张秀秀,马建霞.PDF科技论文语义元数据的自动抽取研究[J].现代图书情报技术,2009,3(2):102-105.
作者姓名:张秀秀  马建霞
作者单位:中国科学院国家科学图书馆兰州分馆,兰州,730000
基金项目:中国科学院国家科学图书馆青年人才领域前沿项目,国家社会科学基金 
摘    要:在分析PDF文件结构的基础上,解析PDF文件的内容流,并采用基于规则的匹配方法和基于格式的定位方法,自动抽取科技论文中的语义元数据信息。实验结果表明,上述方法对标题、作者等重要的语义元数据信息能够达到较好的抽取效果。

关 键 词:PDF  科技论文  语义元数据  自动抽取
收稿时间:2008-11-03
修稿时间:2008-11-21

Automatic Extraction of Semantic Metadata from PDF Research Papers
Zhang Xiuxiu,Ma Jianxia.Automatic Extraction of Semantic Metadata from PDF Research Papers[J].New Technology of Library and Information Service,2009,3(2):102-105.
Authors:Zhang Xiuxiu  Ma Jianxia
Institution:(The Lanzhou Branch of National Science Library, Chinese Academy of Sciences, Lanzhou 730000, China)
Abstract:This paper analyzes content streams of PDF files based on its structure, and extracts semantic metadata automatically from research papers by way of rule-based matching and format-based locating. Experimental results show that this method can extract important semantic metadata such as title and author effectively.
Keywords:PDF
本文献已被 万方数据 等数据库收录!
点击此处可从《现代图书情报技术》浏览原始摘要信息
点击此处可从《现代图书情报技术》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号