共查询到19条相似文献,搜索用时 218 毫秒
1.
一个具体的全文后控检索系统的设计 总被引:4,自引:0,他引:4
周全明 《现代图书情报技术》1996,12(3):32-36
本文除简述了系统设计的总体思想、系统主要特点以及装库、标引、检索等模块的主要功能外, 重点探讨了适应全文检索系统不同时期标引建库需要的三种标引模式, 首次提出了基于全文检索系统标引和后控制成果自学习实现全文本标引用抽词词典的自动积累和完善并建立自动加权标引模式。另外, 还简要论述了全文摘要的机辅生成和后控检索策略的自动构造等重要问题。 相似文献
2.
基于条件随机场的自动标引模型研究 总被引:3,自引:1,他引:2
条件随机场(Conditional Random Fields,CRF)模型是一种概率图模型.为了有效利用标引对象的特征,并考虑到抽词标引可以转换为序列标注问题,本文提出基于条件随机场的自动抽词标引模型.实验结果表明,该模型在改善抽词标引的性能方面,要优于支持向量机、多元线性回归模型等其他机器学习方法,是到目前为止解决序列标注问题的最好方法.但是,该模型本身还不能解决由于样本中存在同义词和相近词带来的问题,需要进一步对训练集和标引过程中存在的词汇语义情况进行考虑,提高标引的质量. 相似文献
3.
4.
基于多词表的自动标引技术研究——新华社新闻稿自动标引的实验 总被引:9,自引:0,他引:9
避开汉语分词中的技术特点 ,转向基于多词表自动标引抽词研究是当前中文信息自动主题与分类标引可以采取的一种策略 ,也是最为可行的方法。本文以新华社新闻稿中的题名和导语为对象 ,详细介绍了基于多词表自动标引技术中的词表构建、自动抽词、主题标引和自动分类等技术。并成功设计了新闻信息自动标引的实验系统 ,取得了较好的效果。 相似文献
5.
自动标引“匹配标引法”原理袁庆华现已开发出来的自动标引系统,大都是应用“抽词标引法”原理,从文献题名中抽出部件词,按词性组配成主题词完成文献主题标引的。由总后档案馆和后勤科研所应用“匹配标引法”原理研制的《档案主题自动标引系统》,避开了词性分析和部件... 相似文献
6.
7.
自动标引研究的回顾与展望* 总被引:3,自引:0,他引:3
章成志 《现代图书情报技术》2007,2(11):33-39
对自动标引的研究进行总结与回顾。对标引对象进行界定;分析自动标引研究的3个阶段,并列出50年研究历程中的代表性方法;详细描述自动标引研究路线图、并对抽词标引与赋词标引方法进行详细分类;最后指出自动标引中存在的问题,并对今后的自动标引研究和应用方向进行展望。 相似文献
8.
随着计算机硬件设备的改进和软件技术的提高,采用关键词法设计和建立的计算机档案主题检索系统也越来越多。为了提高档案关键词检索系统的整体效能,标引时,无论是人工标引还是机器自动标引,是抽词标引还是赋词标引,检索时,无论是题名关键词检索,还是全文检索,是截... 相似文献
9.
10.
微机辅助文献标引系统的设计与研究 3. 自动标引研究 总被引:2,自引:0,他引:2
在微机辅助文献标引系统中引入了自动标引方法, 进一步提高了标引的速度和质量。自动标引的基本思想是: 以机内主题词典为依据, 采用遍历扫描和相似性匹配两种方法, 从标题和文摘中抽词, 本文介绍了这一自动标引技术, 并对自动标引的结果进行了分析和讨论。 相似文献
11.
计算机辅助图书分类、主题标引与检索系统 总被引:3,自引:0,他引:3
计算机辅助图书分类、主题标引与检索系统莫少强,许异兴Abstract:Theprinciples,functionsandusemethodsofthecomputer-aidedbookclassification,subjectindexinga... 相似文献
12.
13.
14.
视频信息索引技术研究进展 总被引:5,自引:0,他引:5
本文对视频数据索引的研究现状与技术发展进行了综述 ,介绍了MPEG标准 ;探讨了视频索引所涉及的内容 ,例如 ,视频的标引、分类和摘要等 ;对视频索引涉及到的相关技术和方法 ,如镜头分割、关键帧抽取等进行了阐述。 相似文献
15.
在网络环境下,主题法将成为学位论文主要的标引与检索工具,其标引质量影响数据质量。结合工作实践,就学位论文主题标引的特点与基本规则以及工作中遇到的问题进行分析,目的在于提高网络环境下学位论文主题标引质量以及学位论文的检准率。 相似文献
16.
Indexing consistency in MEDLINE 总被引:3,自引:0,他引:3
The quality of indexing of periodicals in a bibliographic data base cannot be measured directly, as there is no one "correct" way to index an item. However, consistency can be used to measure the reliability of indexing. To measure consistency in MEDLINE, 760 twice-indexed articles from 42 periodical issues were identified in the data base, and their indexing compared. Consistency, expressed as a percentage, was measured using Hooper's equation. Overall, checktags had the highest consistency. Medical Subject Headings (MeSH) and subheadings were applied more consistently to central concepts than to peripheral points. When subheadings were added to a main heading, consistency was lowered. "Floating" subheadings were more consistent than were attached subheadings. Indexing consistency was not affected by journal indexing priority, language, or length of the article. Terms from MeSH Tree Structure categories A, B, and D appeared more often than expected in the high-consistency articles; whereas terms from categories E, F, H, and N appeared more often than expected in the low-consistency articles. MEDLINE, with its excellent controlled vocabulary, exemplary quality control, and highly trained indexers, probably represents the state of the art in manually indexed data bases. 相似文献
17.
Jee-Hyub Kim Byung-Kwan Kwak Seungwoo Lee Geunbae Lee Jong-Hyeok Lee 《Information Retrieval》2001,4(2):115-132
In Korean information retrieval, compound nouns play an important role in improving precision in search experiments. There are two major approaches to compound noun indexing in Korean: statistical and linguistic. Each method, however, has its own shortcomings, such as limitations when indexing diverse types of compound nouns, over-generation of compound nouns, and data sparseness in training. In this paper, we propose a corpus-based learning method, which can index diverse types of compound nouns using rules automatically extracted from a large corpus. The automatic learning method is more portable and requires less human effort, although it exhibits a performance level similar to the manual-linguistic approach. We also present a new filtering method to solve the problems of compound noun over-generation and data sparseness. 相似文献
18.
文章根据期刊论文自身的特点和应用需求,分析期刊论文元素标引的意义,设计期刊论文元素标引规范的制定流程,并深入分析和研究标引规范的内容结构、元素构成及互操作框架,在此基础上提出了期刊论文的核心元数据、文档结构、深度内容三个方面的标引元素,同时指出了下一阶段研究工作的主要方向。 相似文献
19.
图像索引与检索的数据库方法 总被引:3,自引:0,他引:3
图像资源的迅速增长使我们面临新的挑战, 迫使人们对其索引与检索技术进行深入研究。本文讨论了图像索引的数据库方法,具体论述了图像的颜色、纹理、形状基本特征的抽取和对分类、主题、标题、创建者等外部特征与内容特征的描述,建立索引支持快速检索。. 相似文献