首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
一个具体的全文后控检索系统的设计   总被引:4,自引:0,他引:4  
本文除简述了系统设计的总体思想、系统主要特点以及装库、标引、检索等模块的主要功能外, 重点探讨了适应全文检索系统不同时期标引建库需要的三种标引模式, 首次提出了基于全文检索系统标引和后控制成果自学习实现全文本标引用抽词词典的自动积累和完善并建立自动加权标引模式。另外, 还简要论述了全文摘要的机辅生成和后控检索策略的自动构造等重要问题。  相似文献   

2.
基于条件随机场的自动标引模型研究   总被引:3,自引:1,他引:2  
条件随机场(Conditional Random Fields,CRF)模型是一种概率图模型.为了有效利用标引对象的特征,并考虑到抽词标引可以转换为序列标注问题,本文提出基于条件随机场的自动抽词标引模型.实验结果表明,该模型在改善抽词标引的性能方面,要优于支持向量机、多元线性回归模型等其他机器学习方法,是到目前为止解决序列标注问题的最好方法.但是,该模型本身还不能解决由于样本中存在同义词和相近词带来的问题,需要进一步对训练集和标引过程中存在的词汇语义情况进行考虑,提高标引的质量.  相似文献   

3.
介绍了文献自动标引的几种方法,重点阐述了机辅标引法和电子科技情报研究所开发的电子科技文献机辅标引系统的构成原理与特点。  相似文献   

4.
查贵庭  侯汉清 《情报学报》2002,21(3):273-277
避开汉语分词中的技术特点 ,转向基于多词表自动标引抽词研究是当前中文信息自动主题与分类标引可以采取的一种策略 ,也是最为可行的方法。本文以新华社新闻稿中的题名和导语为对象 ,详细介绍了基于多词表自动标引技术中的词表构建、自动抽词、主题标引和自动分类等技术。并成功设计了新闻信息自动标引的实验系统 ,取得了较好的效果。  相似文献   

5.
自动标引“匹配标引法”原理袁庆华现已开发出来的自动标引系统,大都是应用“抽词标引法”原理,从文献题名中抽出部件词,按词性组配成主题词完成文献主题标引的。由总后档案馆和后勤科研所应用“匹配标引法”原理研制的《档案主题自动标引系统》,避开了词性分析和部件...  相似文献   

6.
自动抽词与自动分词   总被引:8,自引:0,他引:8  
自动抽词与自动分词既有紧密联系又有重大差别。自动抽词标引除编制题内关键词索引外,至今没有突破性进展,主要是检准率太低。本文指出自动抽词标引研究注重在各种更有效的算法的寻找,而忽视对相关问题的深入、系统的研究,是其进展缓慢的重要原因之一,并具体列举了一些相关问题。  相似文献   

7.
自动标引研究的回顾与展望*   总被引:3,自引:0,他引:3  
对自动标引的研究进行总结与回顾。对标引对象进行界定;分析自动标引研究的3个阶段,并列出50年研究历程中的代表性方法;详细描述自动标引研究路线图、并对抽词标引与赋词标引方法进行详细分类;最后指出自动标引中存在的问题,并对今后的自动标引研究和应用方向进行展望。  相似文献   

8.
随着计算机硬件设备的改进和软件技术的提高,采用关键词法设计和建立的计算机档案主题检索系统也越来越多。为了提高档案关键词检索系统的整体效能,标引时,无论是人工标引还是机器自动标引,是抽词标引还是赋词标引,检索时,无论是题名关键词检索,还是全文检索,是截...  相似文献   

9.
生物学文献自动标引系统的理论和实践   总被引:4,自引:0,他引:4  
韩客松  王永成  王刚 《情报学报》2000,19(3):259-264
在统计分析生物学中文文献的一些特点和手工标引的经验的基础上 ,本文介绍了以文献标题和摘要为标引源的自动标引方法。文章着重介绍了折半匹配的抽词和基于非线性加权体系的标引词抽取的理论和实践。  相似文献   

10.
微机辅助文献标引系统的设计与研究 3. 自动标引研究   总被引:2,自引:0,他引:2  
在微机辅助文献标引系统中引入了自动标引方法, 进一步提高了标引的速度和质量。自动标引的基本思想是: 以机内主题词典为依据, 采用遍历扫描和相似性匹配两种方法, 从标题和文摘中抽词, 本文介绍了这一自动标引技术, 并对自动标引的结果进行了分析和讨论。  相似文献   

11.
计算机辅助图书分类、主题标引与检索系统   总被引:3,自引:0,他引:3  
计算机辅助图书分类、主题标引与检索系统莫少强,许异兴Abstract:Theprinciples,functionsandusemethodsofthecomputer-aidedbookclassification,subjectindexinga...  相似文献   

12.
基于知识元的文本知识标引   总被引:19,自引:1,他引:19  
本文提出了知识元标引的新概念,认为知识元标引是实现跨领域知识集成与知识发现的基础。对文本知识元类型,标引规则,人工知识元抽取,软件知识元抽取,人工知识元修改,知识元面向对象表示,知识元对象链接等进行了分析和试验。开发出了“数值知识元”模型,取得了理论与方法的验证,证明了该方法的先进性和实用性。  相似文献   

13.
近五年来自动标引研究在关键词抽取、标引系统设计、自动分类标引、网络信息自动标引、数字图像标引、音频信息标引、视频信息标引、自动标引结果评价等方面取得很大进展,但尚存弱点与不足之处,还不能达到人工标引的效果。今后的研究将朝着探索更优越的语言分析技术、更高端的多媒体信息自动标引方法、高效的知识库智能自学习机制、多种标引方法或模型的互补的集成学习等方向发展。  相似文献   

14.
视频信息索引技术研究进展   总被引:5,自引:0,他引:5  
苏新宁 《情报学报》2004,23(4):410-416
本文对视频数据索引的研究现状与技术发展进行了综述 ,介绍了MPEG标准 ;探讨了视频索引所涉及的内容 ,例如 ,视频的标引、分类和摘要等 ;对视频索引涉及到的相关技术和方法 ,如镜头分割、关键帧抽取等进行了阐述。  相似文献   

15.
在网络环境下,主题法将成为学位论文主要的标引与检索工具,其标引质量影响数据质量。结合工作实践,就学位论文主题标引的特点与基本规则以及工作中遇到的问题进行分析,目的在于提高网络环境下学位论文主题标引质量以及学位论文的检准率。  相似文献   

16.
Indexing consistency in MEDLINE   总被引:3,自引:0,他引:3  
The quality of indexing of periodicals in a bibliographic data base cannot be measured directly, as there is no one "correct" way to index an item. However, consistency can be used to measure the reliability of indexing. To measure consistency in MEDLINE, 760 twice-indexed articles from 42 periodical issues were identified in the data base, and their indexing compared. Consistency, expressed as a percentage, was measured using Hooper's equation. Overall, checktags had the highest consistency. Medical Subject Headings (MeSH) and subheadings were applied more consistently to central concepts than to peripheral points. When subheadings were added to a main heading, consistency was lowered. "Floating" subheadings were more consistent than were attached subheadings. Indexing consistency was not affected by journal indexing priority, language, or length of the article. Terms from MeSH Tree Structure categories A, B, and D appeared more often than expected in the high-consistency articles; whereas terms from categories E, F, H, and N appeared more often than expected in the low-consistency articles. MEDLINE, with its excellent controlled vocabulary, exemplary quality control, and highly trained indexers, probably represents the state of the art in manually indexed data bases.  相似文献   

17.
In Korean information retrieval, compound nouns play an important role in improving precision in search experiments. There are two major approaches to compound noun indexing in Korean: statistical and linguistic. Each method, however, has its own shortcomings, such as limitations when indexing diverse types of compound nouns, over-generation of compound nouns, and data sparseness in training. In this paper, we propose a corpus-based learning method, which can index diverse types of compound nouns using rules automatically extracted from a large corpus. The automatic learning method is more portable and requires less human effort, although it exhibits a performance level similar to the manual-linguistic approach. We also present a new filtering method to solve the problems of compound noun over-generation and data sparseness.  相似文献   

18.
文章根据期刊论文自身的特点和应用需求,分析期刊论文元素标引的意义,设计期刊论文元素标引规范的制定流程,并深入分析和研究标引规范的内容结构、元素构成及互操作框架,在此基础上提出了期刊论文的核心元数据、文档结构、深度内容三个方面的标引元素,同时指出了下一阶段研究工作的主要方向。  相似文献   

19.
图像索引与检索的数据库方法   总被引:3,自引:0,他引:3  
图像资源的迅速增长使我们面临新的挑战, 迫使人们对其索引与检索技术进行深入研究。本文讨论了图像索引的数据库方法,具体论述了图像的颜色、纹理、形状基本特征的抽取和对分类、主题、标题、创建者等外部特征与内容特征的描述,建立索引支持快速检索。.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号