PDF科技论文语义元数据的自动抽取研究 Automatic Extraction of Semantic Metadata from PDF Research Papers期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

PDF科技论文语义元数据的自动抽取研究

引用本文：	张秀秀,马建霞.PDF科技论文语义元数据的自动抽取研究[J].现代图书情报技术,2009,3(2):102-105.

作者姓名：	张秀秀马建霞

作者单位：	中国科学院国家科学图书馆兰州分馆,兰州,730000

基金项目：	中国科学院国家科学图书馆青年人才领域前沿项目，国家社会科学基金

摘要：	在分析PDF文件结构的基础上，解析PDF文件的内容流，并采用基于规则的匹配方法和基于格式的定位方法，自动抽取科技论文中的语义元数据信息。实验结果表明，上述方法对标题、作者等重要的语义元数据信息能够达到较好的抽取效果。
关键词：	PDF 科技论文语义元数据自动抽取
收稿时间：	2008-11-03
修稿时间：	2008-11-21
Automatic Extraction of Semantic Metadata from PDF Research Papers

Zhang Xiuxiu,Ma Jianxia.Automatic Extraction of Semantic Metadata from PDF Research Papers[J].New Technology of Library and Information Service,2009,3(2):102-105.

Authors:	Zhang Xiuxiu Ma Jianxia

Institution:	(The Lanzhou Branch of National Science Library, Chinese Academy of Sciences, Lanzhou 730000, China)

Abstract:	This paper analyzes content streams of PDF files based on its structure, and extracts semantic metadata automatically from research papers by way of rule-based matching and format-based locating. Experimental results show that this method can extract important semantic metadata such as title and author effectively.

Keywords:	PDF
本文献已被万方数据等数据库收录！
	点击此处可从《现代图书情报技术》浏览原始摘要信息
	点击此处可从《现代图书情报技术》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏