首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
文章介绍了自动标引的基本原理和方法。讨论了基于知识库的网页自动标引、基于UCL的网页自动标引和基于遗传算法的网页自动标引方法,并对这三种网页自动标引方法进行了分析和比较。  相似文献   

2.
文章介绍自动标引技术的发展现状,并将自动标引技术应用于政府信息公开的标引工作中,针对政府信息公开工作中存在的问题和不足,运用统计加权算法,将词频统计、位置加权、词共现统计三者相结合,设计实现了基于关键词的政府信息公开的自动标引。  相似文献   

3.
靳从  唐振民  杨静宇 《情报科学》2004,22(3):337-339
自动标引是计算机文献管理中的一个重要过程。主题词的切分是自动标引的第一步,一般标引词均有标准主题词库,而自然主题词千差万别,使切分有一定的困难。本文利用自然主题词的特点,给出了一个基于自然主题词基本结构的切分方法,先使用相关信息对自然主题词的可能起始部分进行判断,再根据约束条件对自然主题词的整体进行判断,同时根据其出现的频率及位置施以加权处理,从而得到正确完整的自然主题词。通过标引系统的标引结果证明了方法可行。  相似文献   

4.
通过信息资源的多维度标引实现信息内容表示的标准化,解决现有互联网基于URL带来的信息共享模式困境。本文结合已有的自动标引算法,对其中的关键技术抽词算法和加权算法提出了一些改进,并通过实验对其进行验证。  相似文献   

5.
汉语文献自动分词与标引研究综述   总被引:3,自引:0,他引:3  
湛述勇 《情报科学》1992,13(5):66-71
本文根据近年来国内发表的有关自动分词与标引的部分文章,对汉语文献自动分词方法和自动标引技术进行了分析和归纳,并提出了自动标引质量评价和标引模型评价指标的问题。  相似文献   

6.
一个基于本体论全文自动标引方案   总被引:5,自引:1,他引:5  
王泰森 《情报科学》2003,21(9):950-952
本文为支持数字图书馆全文检索精度的提高,提出了一个基于本体论全文自动标引方案。该方案利用本体论的方法,强调词与词之间的内在概念联系,着重解决传统的人工标引不能全面概括全文,而且词与词之间缺乏概念性的连接,很难反映文件主题的全面内容及由于多义词、同义词等的原因造成漏检或检索结果返回信息太多,失去检索意义,达不到理想效果的问题。并为数字图书馆在进行主题标引时实现自动化操作。  相似文献   

7.
[目的/意义]对2003年以来我国自动标引的研发现状进行总结并预测未来发展动向,以期为文献自动标引实践的发展提供借鉴和参考。[方法/过程]通过文献调研和相关案例回顾,系统梳理2003—2023年我国文献自动标引的系统研发及典型应用,具体从自动主题标引和自动分类标引两方面展开。[结果/结论]自动标引发展面临不少现实问题,今后自动标引研究及实践应聚焦于技术上重点突破中文自动分词的语言分析问题、研究和探索更高效的语料库智能学习机制、集成化开发多媒体信息自动标引方法、多方联动构建文献自动标引效果的评价体系与监测机制。  相似文献   

8.
网络信息检索系统中信息自动标引方法的设计与实现   总被引:1,自引:0,他引:1  
周晓红 《情报杂志》2005,24(12):41-43
比较了目前主要使用的标引方法,根据网络信息的特点,提出了关键词标引和全文标引相结合的混合标引方法,并给出了具体实现方法,描绘了自动标引的流程图。最后给出了信息标引处理后数据检索方法。  相似文献   

9.
[目的/意义]基于文本挖掘技术自动发现更具代表性的文献内容主题词,通过定位主题词在章节中的具体位置,并基于可视化技术进行主题标引,帮助读者直观高效发现文献主题间的潜在关系。[方法/过程]基于文本挖掘技术深入文献内容层挖掘主题词,并利用可视化工具直观呈现所获信息,在此基础上尝试构建可视化主题自动标引系统,并在格萨尔领域的多个主题中对该系统的自动标引效果进行验证。[结果/结论]研究结果显示,该标引方法在格萨尔领域实现了文献内容级的可视化主题自动标引,快速精准地定位到章节、段落和句子。标引相关信息获取过程直观可视,并且具有交互性,可提升用户体验和参与度。文章以《英雄格萨尔》为例完成系统验证,但该标引方法技术本身无领域限定,可应用于其他领域的文献。  相似文献   

10.
季水娟 《现代情报》2005,25(4):121-123
以前我们对文献中的次要主题很少作分析分类和互见分类。传统的手工检索用的分类标引规则必须向机读数据的分类标引规则过渡和发展,这是提高和发挥计算机组配检索功能的必由之路。重视机读数据分类标引规则的制度和利用,这对文献的检索利用有着重要的意义和作用。  相似文献   

11.
A new dictionary-based text categorization approach is proposed to classify the chemical web pages efficiently. Using a chemistry dictionary, the approach can extract chemistry-related information more exactly from web pages. After automatic segmentation on the documents to find dictionary terms for document expansion, the approach adopts latent semantic indexing (LSI) to produce the final document vectors, and the relevant categories are finally assigned to the test document by using the k-NN text categorization algorithm. The effects of the characteristics of chemistry dictionary and test collection on the categorization efficiency are discussed in this paper, and a new voting method is also introduced to improve the categorization performance further based on the collection characteristics. The experimental results show that the proposed approach has the superior performance to the traditional categorization method and is applicable to the classification of chemical web pages.  相似文献   

12.
This article presents the human evaluation of ILIAD, a program for machine-aided indexing (MAI). It consists of two language engineering modules and is designed to assist expert librarians in computer-aided indexing and document analysis. Our aim is the expert evaluation of automatic multi-word term indexing. Evaluation is performed by documentary engineers. Cataloging and indexing are their principal tasks. They also have a good scientific knowledge of the domain to which the indexed documents belong.We first present the ILIAD program and the two systems submitted to this evaluation, the methodology (protocol) adopted, the differences between the protocol and the implementation, and the results of these evaluations. Human evaluation is divided into three parts: firstly the evaluation of controlled indexing, then free indexing and finally term variant extraction performed during controlled indexing. Finally, we analyze the relevance of this evaluation by calculating the agreement frequency and the Kappa coefficient and propose some future developments.  相似文献   

13.
孟旭阳  白海燕  梁冰  王莉 《情报杂志》2021,(3):125-131,7
[目的/意义]资源数字化时代文献服务向知识服务方向转变,高质量的文献自动标引是文献知识服务能力提升的基础和关键,针对目前英文科技文献自动标引准确率不高的问题,提出了基于语义感知的概念遴选优化方法。[方法/过程]基于知识组织系统的自动主题标引,采用自然语言处理中的神经网络词向量技术,对概念和英文文献内容语义进行表示并进行语义感知与评估,实现概念标引结果在语义层面的遴选。该方法采用基于知识组织系统与自然语言处理技术相结合的方法,弥补了在语义层面上的不足,从而进一步降低不相关概念的影响,提高概念标引结果的准确率。[结果/结论]实验结果表明,该方法具有较好的语义感知性能,在概念遴选上有效降低了不相关概念,大大提高了标引结果的文献相关性,为科技文献资源知识化服务建设和相关研究提供有价值的参考和支持。  相似文献   

14.
CNKI主题标引分析   总被引:2,自引:0,他引:2  
现今网络数据库中文献量日益增大,用户使用量日渐膨胀,需求也愈发急切。怎样准确的提供给用户所需文献成为人们非常重视的问题。对于期刊论文来说,主题标引的高质量是准确提供给用户所需文献的前提与关键。本文选定信息管理学科的6个主题词在CNKI中进行主题检索,通过分析检索结果来评价CNKI的主题标引质量,分析原因并提出改进建议。  相似文献   

15.
自动标引技术的回顾与展望   总被引:4,自引:0,他引:4  
张静 《现代情报》2009,29(4):221-225
本文论述了在目前全文检索广泛应用的背景下,自动标引的重要性;把近五十年发展起来的自动标引技术按照采用的理论依据,分为统计分析方法、语言分析方法、人工智能法和混合方法,并阐述了每类自动标引技术的特征及其优劣势;最后,总结分析了现有自动标引技术的不足,并对其发展前景做出展望。  相似文献   

16.
The profusion of online resources calls for tools and methods to help Internet users find precisely what they are looking for. Quality controlled gateway CISMeF provides such services for health resources. However, the human cost of maintaining and updating the catalogue are increasingly high. This paper presents the automatic indexing system currently developed in the CISMeF team to be used as such for preliminary indexing, or after human reviewing for the final indexing. The system architecture, using the INTEX platform for MeSH term extraction is detailed. The results of a first evaluation tend to indicate that the automatic indexing strategy is relevant, as it achieves a precision comparable to that of other existing operational systems. Moreover, the system presented in this paper retrieves keyword/qualifier pairs as opposed to single terms, therefore providing a significantly more precise indexing. Further development and tests will be carried out in order to improve the coverage of the dictionaries, and validate the efficiency of the system in the indexers’ everyday work.  相似文献   

17.
中文搜索引擎结构初探   总被引:4,自引:0,他引:4  
朱华 《情报科学》2001,19(11):1210-1212
随着Internet的进一步发展,网上中文信息的激增使中文搜索引擎日益受到人们的关注。本文对中文搜索引擎的结构做了初步分析,将其划分为四大模块:网页搜集模块、网页索引模块、查询模块和用户界面,并对各模块的工作原理、技术做了相应的说明。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号