首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
汉语分词技术综述   总被引:2,自引:1,他引:1  
首先介绍了汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述了汉语自动分词技术在中文全文检索中的应用,并对目前汉语自动分词技术存在的局限性进行了分析,提出了发展思路,最后对汉语自动分词技术在中文全文检索中的应用前景进行了预测。  相似文献   

2.
中文自动标引是图书馆学情报学界多年研究的问题并取得了一定成果,其在信息检索数据库研究领域不可或缺。随着全文检索和中文搜索引擎的盛行,中文信息处理有多个学科涉及。中文自动标引、全文检索和中文搜索引擎是什么关系有必要加以明确,以确定其在中文信息处理领域的地位。经探讨认为,全文检索利用了中文自动标引的各种方式,搜索引擎利用了全文检索,因此搜索引擎利用了中文自动标引。中文自动标引、全文检索及中文搜索引擎三者关系是中文自动标引被利用和在技术发展方面相互促进的关系。  相似文献   

3.
文献信息自动标引研究   总被引:12,自引:0,他引:12  
作者认为我国文献自动标引研究的重点应由分词研究向实际标引研究转移。由此, 作者从标引源的确立、标引词权值的定义和使用、标引词库的构造、自动标引算法的实现等方面阐述了他们在自动标引方面的研究成果, 同时介绍了利用标引词库进行的检索改造。  相似文献   

4.
面向大规模语料库的全文检索系统研究   总被引:1,自引:0,他引:1  
随着语料库规模的不断扩大和基于语料库的应用研究逐步拓展,对语料库的全文检索成为语料库系统中不可缺少的重要的组成部分。文章对面向大规模语料库的全文检索系统的索引模式、检索算法、检索表达式的构建、自动分词、系统组成等进行了研究,并基于大规模语料库的语言文字信息处理和应用研究的需要,开发了中文信息处理系统——“CIPP”。目前该系统具有全文检索、自动分词、语言统计等功能,在千万字数量级的语料库中,其全文平均检索时间小于1秒。  相似文献   

5.
档案全文自动著录与智能标引初探汤道銮,韦思聪,曹宇红,徐燕燕一、档案全文自动著录与标引是现代化管理的客观要求。档案检索自动化系统的建立分为四个阶段:第一阶段为档案目录组织自动化:第二阶段为目录检索自动化;第三阶段为全文检索自动化;第四阶段为全文著录与...  相似文献   

6.
基于知识库的网页自动标引和自动分类系统的设计   总被引:15,自引:0,他引:15  
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。  相似文献   

7.
随着计算机硬件设备的改进和软件技术的提高,采用关键词法设计和建立的计算机档案主题检索系统也越来越多。为了提高档案关键词检索系统的整体效能,标引时,无论是人工标引还是机器自动标引,是抽词标引还是赋词标引,检索时,无论是题名关键词检索,还是全文检索,是截...  相似文献   

8.
文献信息计算机全文全自动标引方法   总被引:3,自引:0,他引:3  
为了满足越来越细化的文献信息服务的要求 ,必然会最终实现全文全自动标引和主题词检索加关键词全文检索的文献信息处理方法。文章在已研制成功的“计算机辅助标引系统”的基础上 ,提出了全文全自动标引的切词方法、匹配算法、加权校对算法 ,以及为配合切词和算法的要求应该设立的一系列数据库 ,并论述了它们的含义、功能和建库方法 ,提出了一种全新的文献信息全文全自动标引的实施方法。  相似文献   

9.
基于词索引的中文全文检索关键技术及其发展方向   总被引:2,自引:0,他引:2       下载免费PDF全文
基于词索引的中文全文检索的研究是一个涉及到多个领域的综合性课题。汉语自动分词的精度和速度、词索引数据库的结构、词汇控制技术、检索匹配机制等是影响中文全文检索效果的关键因素。目前基于词索引的中文全文检索技术还在分词技术、网络信息标引的准确率、查全率、查准率以及查询方式上存在局限。未来的中文全文检索将最终在语义、语用、语境层次上实现智能化的信息检索。  相似文献   

10.
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论.  相似文献   

11.
微机辅助文献标引系统的设计与研究 3. 自动标引研究   总被引:2,自引:0,他引:2  
在微机辅助文献标引系统中引入了自动标引方法, 进一步提高了标引的速度和质量。自动标引的基本思想是: 以机内主题词典为依据, 采用遍历扫描和相似性匹配两种方法, 从标题和文摘中抽词, 本文介绍了这一自动标引技术, 并对自动标引的结果进行了分析和讨论。  相似文献   

12.
文章在分析知识组织系统自动映射方法的基础上,提出了利用标引记录库中的关键词来自动构建统一知识组织系统的新思路,给出了具体的方法步骤以及所需采用的数学模型。  相似文献   

13.
基于传统文本检索系统的XML索引实现研究   总被引:3,自引:0,他引:3  
陆伟 《情报学报》2006,25(6):679-685
作为重要的信息交换与存储标准,XML得到学者们越来越多的重视。作为XML检索研究的重要组成部分,XML索引机制与实现的研究已经取得了一定的研究成果。然而,大部分研究都是基于数据库及专门的半结构化管理器之上的。本文提出了如何在传统文本检索系统Okapi的基础上构建XML索引的方法。首先介绍了Okapi的索引结构,在此基础上,深入探讨了XML索引的存储结构及实现,并对索引的性能进行了评价。  相似文献   

14.
对中文科学引文数据库中的被引文献进行作者评价调查 ,证明引文索引词能较好地反映出由其所标引的文献的主题。  相似文献   

15.
BACKGROUND: EUROETHICS is a database covering European literature on ethics in medicine. It is produced within Eurethnet, a European information network on ethics in medicine and biotechnology. OBJECTIVES: The aim of Euroethics is to disseminate information on European bioethical literature that may otherwise be difficult to find. METHODS: A collaboration model for pooling data from different centres was developed. The policy was to accomplish data uniformity, while still allowing for local differences in terms of software, indexing practices and resources. Records contributed to the database follow common standards in terms of data fields and indexing terms. The indexing terms derive from two thesauri, Thesaurus Ethics in the Life Sciences (TELS) and Medical Subject Headings (MeSH). Combining elements from search tools developed previously, the developers sought to find a technical solution optimized for this data model. An approach relying on a thesaurus database that is loaded along with the bibliographic database is described. RESULTS AND CONCLUSIONS: The present case study offers examples of possible approaches to several tasks often encountered in database development, such as: merging data from diverse sources, getting the most out of indexing terms used in a database, and handling more than one thesaurus in the same system.  相似文献   

16.
EconLit     
ABSTRACT

The article examines the weaknesses and strengths of the economics database, EconLit. Comparison is made with other social science databases with especial emphasis on the alphanumeric classification and indexing system unique to EconLit. The general conclusion is that, despite the high value of its information content, EconLit would benefit by adhering closer to the indexing practices of other mainline social science databases.  相似文献   

17.
汉字全文数据库索引机制的定量研究   总被引:11,自引:1,他引:10  
本文从定量方面就汉字全文数据库的单汉字、词索引两种机制在空间、时间、检索效率等方面进行比较分析。通过试验结果, 可为数据库软件开发人员在改善索引效率和检索效率时提供参考依据, 为用户选择软件提供帮助。并探讨了两种机制的发展趋势。  相似文献   

18.
《The Reference Librarian》2013,54(53):113-139
The advent of the CD-ROM database has brought a new era of computerization to libraries. Increased searching abilities allow both users and librarians to access immense quantities of information quickly and easily. However, in our euphoria we must not forget to see the limitations of these products. Students have embraced the new technology of the CD-ROM database as can be observed in numerous user preference surveys. However, if we do not educate these users about all sources of information and the limitations of CDs we may be doing them a disservice. Selection of an indexing source may be based on ease of use at the expense of appropriateness of coverage. Some of the impacts of the CD-ROM technology and its use are examined in this study, including the impact on journal usage as it relates to indexing coverage.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号