首页 | 本学科首页   官方微博 | 高级检索  
     检索      

大规模科技文献深度解析和检索平台构建
引用本文:吴素研,吴江瑞,李文波.大规模科技文献深度解析和检索平台构建[J].现代情报,2009,40(1):110-115.
作者姓名:吴素研  吴江瑞  李文波
作者单位:1. 北京市科学技术情报研究所, 北京 100044;2. 河南工学院, 河南 新乡 100044;3. 中国科学院软件研究所, 北京 100081
基金项目:北京市财政项目"情报快速生产线建设(Ⅰ期)"(项目编号:PXM2017_178214_000005);北京市科学技术情报研究所改革与发展专项(2018)。
摘    要:目的/意义] 在信息检索、科技论文评价和知识结构演化方面,引文分析都起着至关重要的作用。随着格式化全文数据库的出现,引文分析迈入了4.0时代——全文引文分析阶段。但是,目前还没有中文的格式化全文数据库,这极大地制约了全文引文分析在我国科技文献中的研究和应用。方法/过程] 在本文中我们提出建立高效的中文全文引文分析依赖的数据集和检索平台的方法,主要包括:1)提出了基于规则和SVM分类方法的论文元数据和引用提取方法;2)提出基于Spark平台的实现高效引文内容分析标准化数据集生成方法;3)提出建立引用内容的科技文献检索平台。结果/结论] 引文内容分析标准化数据集的建立将全面提升全文引文分析在我国科技领域中的研究效能,提高科技文献查找精度。

关 键 词:全文引文分析  信息抽取  信息检索  Spark  

Construction of Deep Resolution and Retrieval Platform for Large Scale Scientific and Technical Literature
Authors:Wu Suyan  Wu Jiangrui  Li Wenbo
Institution:1. Beijing Institute of Science and Technology Information, Beijing 100044, China;2. Henan Institute Technology, Xinxiang 453003, China;3. Institute of Software Chinese Academy of Science, Beijing 100081, China
Abstract:Purpose/Significance] Citation analysis plays a vital role in the three aspects of information retrieval,scientific paper evaluation,revealing the knowledge structure evolution.With the appearance of full-text literature repositories,Citation analysis entered the 4 Era——full-text citation analysis age.However,there is no Chinese full-text literature database,which have greatly restricted the research and application of full text citation analysis in Chinese Literature.Method/Process] In this paper,we proposed a method to establish efficient data set and retrieval platform for Chinese full text citation analysis,including:(1)the paper metadata and reference extraction methods based on rules and SVM classification methods were proposed;(2)a standard data set generator based on spark platform was proposed;(3)a scientific literature retrieval platform with reference content was put forward.Result/Conclusion] The establishment of the standardized data set of the citation content analysis will improve the research efficiency of the full text citation analysis in the field of science and technology in our country and improve the search precision of the scientific and technological literature.
Keywords:full text citation analysis  information extraction  retrieval  Spark  
点击此处可从《现代情报》浏览原始摘要信息
点击此处可从《现代情报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号