共查询到18条相似文献,搜索用时 234 毫秒
1.
2.
3.
文献信息自动标引研究 总被引:12,自引:0,他引:12
作者认为我国文献自动标引研究的重点应由分词研究向实际标引研究转移。由此, 作者从标引源的确立、标引词权值的定义和使用、标引词库的构造、自动标引算法的实现等方面阐述了他们在自动标引方面的研究成果, 同时介绍了利用标引词库进行的检索改造。 相似文献
4.
面向大规模语料库的全文检索系统研究 总被引:1,自引:0,他引:1
随着语料库规模的不断扩大和基于语料库的应用研究逐步拓展,对语料库的全文检索成为语料库系统中不可缺少的重要的组成部分。文章对面向大规模语料库的全文检索系统的索引模式、检索算法、检索表达式的构建、自动分词、系统组成等进行了研究,并基于大规模语料库的语言文字信息处理和应用研究的需要,开发了中文信息处理系统——“CIPP”。目前该系统具有全文检索、自动分词、语言统计等功能,在千万字数量级的语料库中,其全文平均检索时间小于1秒。 相似文献
5.
6.
基于知识库的网页自动标引和自动分类系统的设计 总被引:15,自引:0,他引:15
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。 相似文献
7.
随着计算机硬件设备的改进和软件技术的提高,采用关键词法设计和建立的计算机档案主题检索系统也越来越多。为了提高档案关键词检索系统的整体效能,标引时,无论是人工标引还是机器自动标引,是抽词标引还是赋词标引,检索时,无论是题名关键词检索,还是全文检索,是截... 相似文献
8.
9.
10.
学科门户智能搜索引擎的设计与构建——农业史门户搜索引擎的实验 总被引:1,自引:0,他引:1
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论. 相似文献
11.
微机辅助文献标引系统的设计与研究 3. 自动标引研究 总被引:2,自引:0,他引:2
在微机辅助文献标引系统中引入了自动标引方法, 进一步提高了标引的速度和质量。自动标引的基本思想是: 以机内主题词典为依据, 采用遍历扫描和相似性匹配两种方法, 从标题和文摘中抽词, 本文介绍了这一自动标引技术, 并对自动标引的结果进行了分析和讨论。 相似文献
12.
13.
基于传统文本检索系统的XML索引实现研究 总被引:3,自引:0,他引:3
作为重要的信息交换与存储标准,XML得到学者们越来越多的重视。作为XML检索研究的重要组成部分,XML索引机制与实现的研究已经取得了一定的研究成果。然而,大部分研究都是基于数据库及专门的半结构化管理器之上的。本文提出了如何在传统文本检索系统Okapi的基础上构建XML索引的方法。首先介绍了Okapi的索引结构,在此基础上,深入探讨了XML索引的存储结构及实现,并对索引的性能进行了评价。 相似文献
14.
对中文科学引文数据库中的被引文献进行作者评价调查 ,证明引文索引词能较好地反映出由其所标引的文献的主题。 相似文献
15.
BACKGROUND: EUROETHICS is a database covering European literature on ethics in medicine. It is produced within Eurethnet, a European information network on ethics in medicine and biotechnology. OBJECTIVES: The aim of Euroethics is to disseminate information on European bioethical literature that may otherwise be difficult to find. METHODS: A collaboration model for pooling data from different centres was developed. The policy was to accomplish data uniformity, while still allowing for local differences in terms of software, indexing practices and resources. Records contributed to the database follow common standards in terms of data fields and indexing terms. The indexing terms derive from two thesauri, Thesaurus Ethics in the Life Sciences (TELS) and Medical Subject Headings (MeSH). Combining elements from search tools developed previously, the developers sought to find a technical solution optimized for this data model. An approach relying on a thesaurus database that is loaded along with the bibliographic database is described. RESULTS AND CONCLUSIONS: The present case study offers examples of possible approaches to several tasks often encountered in database development, such as: merging data from diverse sources, getting the most out of indexing terms used in a database, and handling more than one thesaurus in the same system. 相似文献
16.
《Behavioral & Social Sciences Librarian》2013,32(1):17-25
ABSTRACT The article examines the weaknesses and strengths of the economics database, EconLit. Comparison is made with other social science databases with especial emphasis on the alphanumeric classification and indexing system unique to EconLit. The general conclusion is that, despite the high value of its information content, EconLit would benefit by adhering closer to the indexing practices of other mainline social science databases. 相似文献
17.
汉字全文数据库索引机制的定量研究 总被引:11,自引:1,他引:10
杨沛 《现代图书情报技术》1996,12(2):15-19
本文从定量方面就汉字全文数据库的单汉字、词索引两种机制在空间、时间、检索效率等方面进行比较分析。通过试验结果, 可为数据库软件开发人员在改善索引效率和检索效率时提供参考依据, 为用户选择软件提供帮助。并探讨了两种机制的发展趋势。 相似文献
18.
《The Reference Librarian》2013,54(53):113-139
The advent of the CD-ROM database has brought a new era of computerization to libraries. Increased searching abilities allow both users and librarians to access immense quantities of information quickly and easily. However, in our euphoria we must not forget to see the limitations of these products. Students have embraced the new technology of the CD-ROM database as can be observed in numerous user preference surveys. However, if we do not educate these users about all sources of information and the limitations of CDs we may be doing them a disservice. Selection of an indexing source may be based on ease of use at the expense of appropriateness of coverage. Some of the impacts of the CD-ROM technology and its use are examined in this study, including the impact on journal usage as it relates to indexing coverage. 相似文献