首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 437 毫秒
1.
元数据自动抽取研究新进展*   总被引:1,自引:0,他引:1  
 分析元数据自动抽取的现实需求,对元数据自动抽取的相关研究进行阐述,然后对DROID、 NLNZ Metadata Extractor、Metadata Miner Catalogue PRO 3种典型的元数据自动抽取器进行分析比较;在讨论目前元数据自动抽取技术局限性的基础上,对该技术进行总结和展望。  相似文献   

2.
机构知识库元数据的自动生成与评估研究   总被引:1,自引:0,他引:1  
由于当今的信息中心和图书馆需要按照终端用户的需求来提供信息和知识的共享服务,机构知识库正受到越来越多的学术机构的重视.机构知识库的服务质量主要取决于数字资源的元数据质量.相比于人工生成元数据,自动生成元数据的成本低、效率高、更加公正可靠.文章基于元数据抽取和收集两种方法,提出元数据自动生成系统的框架结构,并分析讨论了元数据完整性和精确性这两个主要的评价指标,以期对自动生成的元数据质量进行科学的评估.  相似文献   

3.
文章以网络调查法、文献调研法和内容分析法为主要研究方法,比较并分析DataVerse、Dryad、DSpace、Fedora和CKAN 5个应用广泛的开源科研数据知识库的元数据方案,包含元数据模式、元数据收割协议、资源标识系统以及应用程序接口等内容。提出了我国科研数据知识库元数据的建设方案,即复用通用、标准的元数据模式,根据实际需求扩展与修改;遵循简单、灵活和自动生成的设计原则;将关联数据等语义网技术应用于元数据方案的设计,解决不同元数据模式之间的互操作问题。  相似文献   

4.
预置XML标签定制DOI元数据   总被引:3,自引:0,他引:3  
为了实现期刊论文中文DOI元数据的批量自动提取,提出了向排版模板中预置元数据标签的解决方案.以方正书版文件为例,阐述了通过"不排"命令预置XML标签的具体方法.给出了采用自编工具软件提取DOI元数据和生成XML格式注册元数据文件的基本步骤.介绍了使用万方数据"中文DOI注册元数据转换与校验系统"完成元数据校验和网上提交的操作流程.  相似文献   

5.
元数据是解决网络资源从无序走向有序的方案之一。本文简要介绍了都柏林核心元数据集在数字图书馆中的用法;针对中美合作百万册数字图书馆项目,阐述了采用DC1.1版本作为电子图书元数据标准的原因;提出了利用软件自动检查电子图书DC的方法;分析了工具软件对电子图书DC元数据检查的结果。  相似文献   

6.
崔玉洁  廖坤 《编辑学报》2016,28(5):485-487
现有的元数据提取方法提取规则烦琐、适应性差.针对这一问题,文章提出了借助八爪鱼采集器实现过刊网刊元数据提取的新方法.该方法以大型数据库的网页信息为对象,建立了提取元数据的流程图,通过该流程图设置相应的规则,并配置抓取数据模块,最后将该方法应用于网刊元数据的自动提取中.实际应用显示,该方法有效地提高了元数据的提取性能,并且具有较强的适应性.  相似文献   

7.
本文通过理论研究与实证分析,进一步论证了元数据是电子文件管理的命脉,是电子文件真实性、可靠性、完整性与可用性的重要保障,是对电子文件实施前端控制和全程管理的关键,是实现自动化管理和智能分析的重要基础;同时展示了对《文书类电子文件元数据方案》的实施与拓展,对元数据实现自动采集的需求分析、原则与思路以及具有可操作性的研究成果。  相似文献   

8.
Web站点元数据自动生成工具介绍   总被引:5,自引:0,他引:5  
本文将目前存在的Web站点元数据自动生成工具分类两类:编辑器(editor)和生成器(generator),并分别论述了这两类工具的工作原理。  相似文献   

9.
本文通过对现有的电子文件鉴定成果进行梳理,指出电子文件自动鉴定的必要性。为了使电子文件自动鉴定结果更准确,笔者以元数据内容为切入点设计了电子文件保管期限自动鉴定的元数据库,数据库中收录了不同保管期限的元数据项目,在此基础上,提出一些鉴定规则对自动鉴定进行规约,期望能最大限度实现鉴定的准确性和自动化。  相似文献   

10.
PDF科技论文语义元数据的自动抽取研究   总被引:1,自引:0,他引:1  
在分析PDF文件结构的基础上,解析PDF文件的内容流,并采用基于规则的匹配方法和基于格式的定位方法,自动抽取科技论文中的语义元数据信息。实验结果表明,上述方法对标题、作者等重要的语义元数据信息能够达到较好的抽取效果。  相似文献   

11.
Analysis of a survey of the types and extent of tools and techniques related to semi-automatic metadata generation applied in real-world library settings indicates that practical applications in libraries seem to be at an incipient stage. More than half (n  = 149, 52.5%) of the survey participants (n  = 285) specify that semi-automatic metadata generation has not been utilized for metadata creation and management in their libraries. This figure becomes even higher when adding the response “don't know,” constituting an additional 13.7%. The results of the survey also show that the semi-automatic metadata generation tools described by participants mostly concern metadata format conversion (38.6%) and metadata templates and forms (27%) for populating certain metadata values. Complex tools and the generation and extraction of metadata directly from the content and context of the digital objects are rarely applied in libraries. This indicates that more research is needed on the development of automatic metadata generation for semantic metadata in usable and practical settings.  相似文献   

12.
Based on a set of web survey data, this study examines cataloging and metadata professionals' perspectives on issues surrounding continuing education. The results show that emerging data standards such as the Semantic Web and BIBFRAME, as well as metadata and digital library-related topics, are subject areas currently central to their professional concerns, in addition to RDA, for professional development. Topics such as ontologies, social tagging, and automatic metadata generation were rarely reported. Meaningful interactions were often found to be lacking in online education. The results provide evidence of the need to expand the pool of shared expertise to meet our collective needs for continuing education in the cataloging and metadata community.  相似文献   

13.
黄莺 《图书情报工作》2013,57(4):143-148
在元数据质量研究成果的基础上总结出元数据质量的涵义,并以此涵义为基础,归纳元数据评估的4个主要维度:完整性、准确性、一致性、期望满足程度。在对比元数据质量评估方式的基础上得出自动化评估是质量管理的必要举措。为实现自动评估,将信息熵、信息检索中向量空间模型、逆文献频率加权法等理论应用到4个主要维度的量化中,提出具体的定量评估计算公式;最后介绍其他常见评估维度的定量评估思路和自动化定量评估方面需要进一步深入的研究工作。  相似文献   

14.
当前图书馆馆藏书刊目录数据库多采用MARC元数据,并以ISO2709标准进行编码,而馆藏其它数据库多采用不同的元数据和元数据编码格式。并非是元数据不统一才导致图书馆难以整合不同数据库信息资源,根本原因在于这些元数据的编码格式不统一,接口不规范。文章从元数据编码角度指出,在不同信息系统中,只有采用新一代的XML和Web Service信息标准,才能实现跨资源类型、跨载体格式和跨系统的多种元数据整合,从而充分实现信息资源的共享共建和整合效应。  相似文献   

15.
研究构建了具有位置信息控制的特义禁用词语义环境,进而运用于中文文献元数据CXMARC文本的自动标引和主题信息的数据挖掘,其中研究设计的预处理特义中文禁用字词切分算法SWF,能有效地减少领域的分词歧义性和缩短标引时间,从而改进了传统最大匹配MM算法的自动标引质量和效率。  相似文献   

16.
信息抽取技术及其在数字图书馆中的应用前景分析   总被引:18,自引:1,他引:18  
信息抽取的目标是自动从文本信息中抽取出预先想要得到的信息(知识) , 它提供了一条从浩瀚的信息堆积中抽取出与用户相关的信息的一条思路。文章分析了信息抽取的主要概念、主要研究活动、信息抽取的类型和信息抽取系统的一般结构, 并提出在数字图书馆的建设中, 信息抽取技术能够在数字内容的自动标引、元数据获取、数据挖掘、情报研究分析、大型知识库数值库建设、参考咨询等方面发挥重要的作用。  相似文献   

17.
日本开放获取知识库联盟(JPCOAR)为应对近年来国际形势变化和学术信息发布技术发展、促进日本学术成果的国际流通,开发出了取代junii2的新一代元数据模型,对完善我国机构知识库元数据模型具有较强的借鉴意义。本文梳理了JPCOAR元模型的开发背景、基本原则和特点,并在此基础上分析了日本机构知识库元数据模型未来的发展趋势。研究发现,未来元数据最重要的是正确提供标识符并使其成为易于处理的数据结构,而不是专注于精细化描述。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号