共查询到17条相似文献,搜索用时 437 毫秒
1.
元数据自动抽取研究新进展* 总被引:1,自引:0,他引:1
分析元数据自动抽取的现实需求,对元数据自动抽取的相关研究进行阐述,然后对DROID、 NLNZ Metadata Extractor、Metadata Miner Catalogue PRO 3种典型的元数据自动抽取器进行分析比较;在讨论目前元数据自动抽取技术局限性的基础上,对该技术进行总结和展望。 相似文献
2.
机构知识库元数据的自动生成与评估研究 总被引:1,自引:0,他引:1
由于当今的信息中心和图书馆需要按照终端用户的需求来提供信息和知识的共享服务,机构知识库正受到越来越多的学术机构的重视.机构知识库的服务质量主要取决于数字资源的元数据质量.相比于人工生成元数据,自动生成元数据的成本低、效率高、更加公正可靠.文章基于元数据抽取和收集两种方法,提出元数据自动生成系统的框架结构,并分析讨论了元数据完整性和精确性这两个主要的评价指标,以期对自动生成的元数据质量进行科学的评估. 相似文献
3.
文章以网络调查法、文献调研法和内容分析法为主要研究方法,比较并分析DataVerse、Dryad、DSpace、Fedora和CKAN 5个应用广泛的开源科研数据知识库的元数据方案,包含元数据模式、元数据收割协议、资源标识系统以及应用程序接口等内容。提出了我国科研数据知识库元数据的建设方案,即复用通用、标准的元数据模式,根据实际需求扩展与修改;遵循简单、灵活和自动生成的设计原则;将关联数据等语义网技术应用于元数据方案的设计,解决不同元数据模式之间的互操作问题。 相似文献
4.
5.
元数据是解决网络资源从无序走向有序的方案之一。本文简要介绍了都柏林核心元数据集在数字图书馆中的用法;针对中美合作百万册数字图书馆项目,阐述了采用DC1.1版本作为电子图书元数据标准的原因;提出了利用软件自动检查电子图书DC的方法;分析了工具软件对电子图书DC元数据检查的结果。 相似文献
6.
现有的元数据提取方法提取规则烦琐、适应性差.针对这一问题,文章提出了借助八爪鱼采集器实现过刊网刊元数据提取的新方法.该方法以大型数据库的网页信息为对象,建立了提取元数据的流程图,通过该流程图设置相应的规则,并配置抓取数据模块,最后将该方法应用于网刊元数据的自动提取中.实际应用显示,该方法有效地提高了元数据的提取性能,并且具有较强的适应性. 相似文献
7.
8.
Web站点元数据自动生成工具介绍 总被引:5,自引:0,他引:5
本文将目前存在的Web站点元数据自动生成工具分类两类:编辑器(editor)和生成器(generator),并分别论述了这两类工具的工作原理。 相似文献
9.
本文通过对现有的电子文件鉴定成果进行梳理,指出电子文件自动鉴定的必要性。为了使电子文件自动鉴定结果更准确,笔者以元数据内容为切入点设计了电子文件保管期限自动鉴定的元数据库,数据库中收录了不同保管期限的元数据项目,在此基础上,提出一些鉴定规则对自动鉴定进行规约,期望能最大限度实现鉴定的准确性和自动化。 相似文献
10.
PDF科技论文语义元数据的自动抽取研究 总被引:1,自引:0,他引:1
在分析PDF文件结构的基础上,解析PDF文件的内容流,并采用基于规则的匹配方法和基于格式的定位方法,自动抽取科技论文中的语义元数据信息。实验结果表明,上述方法对标题、作者等重要的语义元数据信息能够达到较好的抽取效果。 相似文献
11.
Analysis of a survey of the types and extent of tools and techniques related to semi-automatic metadata generation applied in real-world library settings indicates that practical applications in libraries seem to be at an incipient stage. More than half (n = 149, 52.5%) of the survey participants (n = 285) specify that semi-automatic metadata generation has not been utilized for metadata creation and management in their libraries. This figure becomes even higher when adding the response “don't know,” constituting an additional 13.7%. The results of the survey also show that the semi-automatic metadata generation tools described by participants mostly concern metadata format conversion (38.6%) and metadata templates and forms (27%) for populating certain metadata values. Complex tools and the generation and extraction of metadata directly from the content and context of the digital objects are rarely applied in libraries. This indicates that more research is needed on the development of automatic metadata generation for semantic metadata in usable and practical settings. 相似文献
12.
Based on a set of web survey data, this study examines cataloging and metadata professionals' perspectives on issues surrounding continuing education. The results show that emerging data standards such as the Semantic Web and BIBFRAME, as well as metadata and digital library-related topics, are subject areas currently central to their professional concerns, in addition to RDA, for professional development. Topics such as ontologies, social tagging, and automatic metadata generation were rarely reported. Meaningful interactions were often found to be lacking in online education. The results provide evidence of the need to expand the pool of shared expertise to meet our collective needs for continuing education in the cataloging and metadata community. 相似文献
13.
在元数据质量研究成果的基础上总结出元数据质量的涵义,并以此涵义为基础,归纳元数据评估的4个主要维度:完整性、准确性、一致性、期望满足程度。在对比元数据质量评估方式的基础上得出自动化评估是质量管理的必要举措。为实现自动评估,将信息熵、信息检索中向量空间模型、逆文献频率加权法等理论应用到4个主要维度的量化中,提出具体的定量评估计算公式;最后介绍其他常见评估维度的定量评估思路和自动化定量评估方面需要进一步深入的研究工作。 相似文献
14.
15.
研究构建了具有位置信息控制的特义禁用词语义环境,进而运用于中文文献元数据CXMARC文本的自动标引和主题信息的数据挖掘,其中研究设计的预处理特义中文禁用字词切分算法SWF,能有效地减少领域的分词歧义性和缩短标引时间,从而改进了传统最大匹配MM算法的自动标引质量和效率。 相似文献
16.
信息抽取技术及其在数字图书馆中的应用前景分析 总被引:18,自引:1,他引:18
张智雄 《现代图书情报技术》2004,20(6):1-5
信息抽取的目标是自动从文本信息中抽取出预先想要得到的信息(知识) , 它提供了一条从浩瀚的信息堆积中抽取出与用户相关的信息的一条思路。文章分析了信息抽取的主要概念、主要研究活动、信息抽取的类型和信息抽取系统的一般结构, 并提出在数字图书馆的建设中, 信息抽取技术能够在数字内容的自动标引、元数据获取、数据挖掘、情报研究分析、大型知识库数值库建设、参考咨询等方面发挥重要的作用。 相似文献