首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
在对纸本期刊进行数字化过程中,元数据抽取是必不可少的步骤.传统的手工抽取需要大量的人力物力,效率很低.针对扫描期刊,提出了一种基于扫描页面特征分析的元数据自动抽取算法,分析扫描页的格式、结构、字体等特征,采用基于规则和有监督的机器学习方法进行抽取,实验表明该算法能够取得较高的准确率和召回率,同时显著地提高了元数据标引的效率.  相似文献   

2.
马坤 《现代情报》2012,32(12):44-49
为了提高文献录入效率和准确率,减少录入文献的人工审核,提出一种基于DOI和论文数据库的在线文献元数据获取方法,设计DOI解析代理集成异构的DOI注册代理机构的服务接口,通过RoadRunner算法实现基于论文数据库详情页的文献元数据抽取。最后实现在线文献元数据智能录入系统,验证上述方法的有效性和实用性。  相似文献   

3.
做书刊数字化工作的总校对工作有一段时间了,对于经常出现错误的规律有了一些认识。我们书刊数字化的工作流程是:选材→扫描→汉王文本王识别校对→录入→数字化页面二次校对。这样一个个工作环节做下来,到二次校对时差错率就很小了。但最后成品的数字化页面却总还是存在一些这样那样的问题,以至于总不能达到零差错率。校对时间长了,慢慢的我从中总结出一些经验.现在写下来,以供大家以后工作时借鉴。  相似文献   

4.
黄建琦  尹锋  倪问尹 《现代情报》2007,27(11):77-79,81
存储网格技术的出现,实现了异构资源系统之间的灵活共享,充分体现出了资源管理与检索的高效性。基于存储网格技术的数字化图书馆应用开放性协议规范,结合XML技术,用户通过资源代理完成元数据的录入与应用;层式分布式结构的元数据目录库设计能使资源有效会聚和实现资源高效检索;基于角色认证的文件系统大大提高了资源的安全性与广泛共享性。因此.构建基于存储网格技术的数字图书馆将具有重要的理论意义与实用价值。  相似文献   

5.
图书资料的数字化是数字图书馆建设中一项基本内容,扫描的图书资料文件是其中的重要组成部分。基于图书资料的扫描图像,研究了其中插图页面的自动检测问题。通过区别文字区域和插图部分,可以从文档的扫描文件中自动检测出含有插图的页面,为数字图书馆智能化信息处理提供服务。  相似文献   

6.
开放存取期刊网站结构和页面分类研究   总被引:1,自引:0,他引:1  
通过对国内外20种期刊网站结构和页面内容的分析,总结出期刊网站的Surface、聚类、树形、干扰4种特性,把期刊网站页面分为卷期索引、期目录、论文元数据、全文4类页面,分析了不同页面种类之间的组合变化,提出了基于页面分类的OA主题蜘蛛设计方案.  相似文献   

7.
分析了机器学习技术的基本原理,结合数字化资源中的信息、知识和情报的检索中方法,发现:机器学习等人工智能方法可以很好地应用于数字化资源中的信息、知识和情报的检索中方法。并采用全媒体的手段向信息、知识和情报的需求者进行实时反馈。探讨了一种基于机器学习技术的数字化资源中的检索平台的框架结构。  相似文献   

8.
彭同坠 《科教文汇》2008,(36):278-278
信息抽取技术的研究旨在为人们提供一种更有利的获取信息的方式,针对互联网上web页面的异构性和动态性,本文提出了一种通用的web新闻页面信息抽取的方法。该方法克服了传统的网页信息抽取中针对不同的网站制作不同的包装器的缺点。本方法主要针对新闻页面正文、发布时间、转载情况的信息抽取,为自然语言处理的研究提供语料支持,其准确性能够很好地满足需求。  相似文献   

9.
[目的/意义]图书评论是出版社、图书馆和用户研究读者观点的重要线索,评论特征抽取研究是提高图书评论观点精准挖掘效率和准确率的基础性工作。[方法/过程]分别从评论特征抽取研究和图书评论特征聚类、语义表示、隐性特征抽取的典型方法等方面对国内外研究现状进行客观分析,梳理相关领域研究发展脉络和趋势。[结果/结论]指出图书评论特征抽取效率和准确率的提高需要考虑特征聚类、语义表示和隐性特征抽取等关键问题。  相似文献   

10.
网络报纸的长期保存必须解决其元数据的抽取问题,CWM为我们提供了方便的技术框架模型。在介绍CWM的基本标准、技术、内容、框架体系基础上,基于提取的网络报纸整合数据链,利用CWM对整合数据链的不同部分分别进行元数据抽取,并分析不同部分可能的元数据集。设计出网络报纸的元数据抽取框架模型,指出抽取过程中应该解决的关键问题是解决对象-关系映射、元数据冲突及元数据导出。  相似文献   

11.
我国作为全球遭受国外反倾销调查最多的目标国,反倾销预警机制对我国的贸易出口具有重要意义。针对我国现有反倾销预警机制现存缺陷,构建基于竞争情报理论的反倾销预警机制有利于做到对风险的知晓、预警与应对。通过竞争环境、竞争对手与竞争战略制定三个系统的构建,确保了反倾销预警机制的系统性与完备性。  相似文献   

12.
XML:数字图书馆信息组织的基础技术   总被引:4,自引:0,他引:4  
卢巧云 《情报科学》2003,21(9):960-962
数字图书馆的信息对象以网络为存在基础,具有海量性和异构性。针对这些特性,文章在分析标记语言SGML、HTML的优缺点及XML的优势的基础上,选择XML作为数字图书馆信息组织的技术。举例说明XML在数字图书馆元数据描述中的具体应用。文章最后指出XML广阔的使用前景为其在数字图书馆中的应用提供了更大的发展空间。  相似文献   

13.
In order to organise and manage geospatial and georeferenced information on the Web making them convenient for searching and browsing, a digital portal known as G-Portal has been designed and implemented. Compared to other digital libraries, G-Portal is unique for several of its features. It maintains metadata resources in XML with flexible resource schemas. Logical groupings of metadata resources as projects and layers are possible to allow the entire metadata collection to be partitioned differently for users with different information needs. These metadata resources can be displayed in both the classification-based and map-based interfaces provided by G-Portal. G-Portal further incorporates both a query module and an annotation module for users to search metadata and to create additional knowledge for sharing respectively. G-Portal also includes a resource classification module that categorizes resources into one or more hierarchical category trees based on user-defined classification schemas. This paper gives an overview of the G-Portal design and implementation. The portal features will be illustrated using a collection of high school geography examination-related resources.  相似文献   

14.
The name ambiguity problem is especially challenging in the field of bibliographic digital libraries. The problem is amplified when names are collected from heterogeneous sources. This is the case in the Scholarometer system, which performs bibliometric analysis by cross-correlating author names in user queries with those retrieved from digital libraries. The uncontrolled nature of user-generated annotations is very valuable, but creates the need to detect ambiguous names. Our goal is to detect ambiguous names at query time by mining digital library annotation data, thereby decreasing noise in the bibliometric analysis. We explore three kinds of heuristic features based on citations, metadata, and crowdsourced topics in a supervised learning framework. The proposed approach achieves almost 80% accuracy. Finally, we compare the performance of ambiguous author detection in Scholarometer using Google Scholar against a baseline based on Microsoft Academic Search.  相似文献   

15.
由于信息数量和种类增加,用户对数字图书馆期待更多的智能服务.本文提出通过引入机器学习技术来解决此问题,首先简要介绍了机器学习技术,说明了可适应个性化数字图书馆局限性,然后提出基于机器学习的自适应个性化数字图书馆模型,最后探讨了用户模型的自动创建.实践表明,此模型可满足用户对信息的需要,简化信息查找过程.  相似文献   

16.
Digital libraries of scientific articles contain collections of digital objects that are usually described by bibliographic metadata records. These records can be acquired from different sources and be represented using several metadata standards. These metadata standards may be heterogeneous in both, content and structure. All of this implies that many records may be duplicated in the repository, thus affecting the quality of services, such as searching and browsing. In this article we present an approach that identifies duplicated bibliographic metadata records in an efficient and effective way. We propose similarity functions especially designed for the digital library domain and experimentally evaluate them. Our results show that the proposed functions improve the quality of metadata deduplication up to 188% compared to four different baselines. We also show that our approach achieves statistical equivalent results when compared to a state-of-the-art method for replica identification based on genetic programming, without the burden and cost of any training process.  相似文献   

17.
李郎达 《情报科学》2002,20(12):1263-1265,1267
Metadata在数字资料的典藏中起着极其重要的作用。本文试图从数字典藏的策略及Metadata对数字典藏的重要性,进一步探讨用于数字典藏的Metadata要素及相关问题。  相似文献   

18.
李航  王臻 《情报探索》2014,(12):133-135
介绍了数字图书馆中基于XML/RDF的两种元数据描述技术,一种是传统的机读格式MARC元数据,一种是DC元数据。通过对比发现,DC元数据描述的数字资源信息更为直观、灵活、易读,但DC元数据并不能完全取代MARC元数据,二者各有优点和不足,并相互补充。  相似文献   

19.
张娟 《现代情报》2011,31(8):69-72
MODS是美国国会图书馆提出的一种描述性元数据,是在MARC基础上发展起来的,用来对数字资源进行描述。本文分析了MODS产生背景、内容、特性、功能及国外应用情况。  相似文献   

20.
数字化图书馆资源仓库的基础--METS   总被引:2,自引:0,他引:2  
李蓓 《情报科学》2004,22(11):1375-1379,1387
METS是为了适应数字化图书馆的而推出的一项新的元数据标准。本文介绍METS的发展、特色、结构及各组成部分的使用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号