首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
自动标引的评价是度量一个标引系统的性能的重要手段。针对常规自动标引评价方法存在的评价结果不能完全反映真实标引结果,以及评价成本高的情况,本文提出一种通用的自动标引评价模型,该模型有效利用外部资源,根据有参照情况与无参照情况,分别对标引结果进行评价。实验结果表明,自动标引通用评价模型能增加评价的可靠性并降低评价的成本。  相似文献   

2.
中文农业科技文献自动标引系统SDIC/CASDAIS   总被引:1,自引:0,他引:1  
本文介绍了一个中文农业文献自动标引系统SDIC/CASDAIS,它集自动主题标引与自动分类标引于一体,采用主题词表、预匹配词表和停用词表相结合的词典法方案,匹配中采取正向增字跳字最长匹配的算法,末二字回溯,制订大量规则以降低错标。该系统可完成主题标引和分类标引,能处理农业文献中常见的缩略语和科技术语不规范现象,具备动态构词功能。SDIC/CASDAIS系统采用特征词析取方法处理不包含在词表中的品种、物质名称和地名等关键词,其自由词判定规则还可以判别标题的部分自由词,通过词频统计可作为更新词表的依据。SDIC/CASDAIS系统的标引速度为3000条标题/小时,平均标引深度略大于4,主题标引精度98%,分类标引基本吻合率80%。  相似文献   

3.
自动标引通用评价模型研究   总被引:1,自引:0,他引:1  
目前大多文档都不具有关键词,但手工标引关键词费时费力且主观性较强,因此关键词自动标引是一项值得研究的技术,由此引发的标引结果有效评价问题也成为一个亟需解决的问题.然而,评估关键词自动标引的性能并非一件容易的事情.针对常规自动标引评价方法存在的评价结果不能完全反映真实的标引结果以及评价成本高的情况,本文提出一种通用的自动标引评价模型.该模型可以有效地利用外部资源,在有参照情况下与无参照情况下,分别对标引结果进行评价.实验结果表明,自动标引通用评价模型能增加标引评价的可靠性,并且降低标引评价的成本.  相似文献   

4.
近五年来自动标引研究在关键词抽取、标引系统设计、自动分类标引、网络信息自动标引、数字图像标引、音频信息标引、视频信息标引、自动标引结果评价等方面取得很大进展,但尚存弱点与不足之处,还不能达到人工标引的效果。今后的研究将朝着探索更优越的语言分析技术、更高端的多媒体信息自动标引方法、高效的知识库智能自学习机制、多种标引方法或模型的互补的集成学习等方向发展。  相似文献   

5.
本文介绍了两种标引评价方法与质量控制技术中的各项评价指标,反映了标引的功能与特性.由于提供了比较简单的计算统计方法与实现步骤,这两种技术方法均可以较为方便地转换为计算机应用软件,文中还介绍了“标引主题隶属度“专家系统控制技术,对实现索引质量控制自动化以及图书自动分类也都有一定的参考价值。  相似文献   

6.
自动标引研究的回顾与展望*   总被引:3,自引:0,他引:3  
对自动标引的研究进行总结与回顾。对标引对象进行界定;分析自动标引研究的3个阶段,并列出50年研究历程中的代表性方法;详细描述自动标引研究路线图、并对抽词标引与赋词标引方法进行详细分类;最后指出自动标引中存在的问题,并对今后的自动标引研究和应用方向进行展望。  相似文献   

7.
章成志 《中国索引》2009,7(2):16-23
目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量。为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引。实验结果表明,基于集成学习方法的自动标引能提高标引结果的查准率和召回率。另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果。  相似文献   

8.
基于集成学习的自动标引方法研究   总被引:1,自引:0,他引:1  
目前大多数自动标引方法不能有效利用文本中包含的多个特征.而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取.同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量.为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引.实验结果表明基于集成学习方法的自动标引能提高标引结果的查准率和召回率.另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果.  相似文献   

9.
书后主题索引的自动编制初探   总被引:1,自引:0,他引:1  
针对现有索引软件一般只能进行字面标引而不能实现概念标引的不足,提出了一个基于概念标引的书后主题索引自动编制方案,即将图书章节细化后利用基于单篇文献的自动标引系统进行图书主题标引。通过三种标引系统对实验语料的标引结果统计来选择标引系统;其次通过对篇章结构分析,提出基于标题符号的标引源自动识别方案,同时给各标引源设定权重,提出主题词标引流程;最后还探讨了标引单元确定以及索引地址设计。实验表明,基于N—gram方法的书后主题索引的自动编制方法是可行的。  相似文献   

10.
自动标引是现代信息检索研究工作的重点之一,论述了自动标引的整个过程中所应该注意的问题,并描绘了自动标引的流程图。  相似文献   

11.
用于汉语文献自动标引的词典结构研究   总被引:1,自引:0,他引:1  
用于汉语文献自动标引的词典组织结构对自动标引的效率有很大影响,自动标引中运用的词典查找算法有其自身的特点,符合这种特点的词典结构能提高自动标引过程中分词的速度。本文在分析了几种常用的词典结构的空间效率和时间效率之后,提出了一种通用而高效的词典组织方法。采用这种方法的词典,其体积可以减小到原来的0.4倍,分词速度提高到原来的2.5倍。  相似文献   

12.
微机辅助文献标引系统的设计与研究 3. 自动标引研究   总被引:2,自引:0,他引:2  
在微机辅助文献标引系统中引入了自动标引方法, 进一步提高了标引的速度和质量。自动标引的基本思想是: 以机内主题词典为依据, 采用遍历扫描和相似性匹配两种方法, 从标题和文摘中抽词, 本文介绍了这一自动标引技术, 并对自动标引的结果进行了分析和讨论。  相似文献   

13.
统计分析法自动标引的改进研究   总被引:2,自引:0,他引:2  
统计分析法自动标引是自动标引的一种重要方法。本文从标引词应反映文献主题内容这一原则出发,对统计分析法自动标引从标引源的确定、权值的设计、词频的调整及检索后控词表的设计与维护等方面提出了一些改进设想。通过这些方法使标引词更好地反映文献主题的同时提高检索效率。  相似文献   

14.
关于中医临床文献自动主题标引系统的研究   总被引:2,自引:0,他引:2  
中医临床文献自动主题标引系统针对中医药文献的特点,结合手工标引和自动标引的长处,在自动标引的基础上,再由人工利用计算机辅助对机器自动标引的结果进行干预,从而在真正意义上将计算机的快速、准确和人脑的智慧结合起来,大大缩短了建设数据库的中间过程,提高了文献标引的质量和效率。  相似文献   

15.
也谈单汉字标引法   总被引:1,自引:0,他引:1  
单汉字标引法是在基于汉语分词的自动标引研究遇到不可克服的困难之后,而产生的一种新的自动标引方法。本文集中列举了它的9大优点,同时也指出了它的缺点和不足,呼呈学术界加强研究,以期使之更加完善和实用。  相似文献   

16.
文章在对自动标引技术的原理、方法及划分、国内外研究发展现状和自动标引技术的优势简单介绍的基础上,提出了基于《中国分类主题词表》的文本自动标引系统的设计方案并对文本数据自动标引系统的流程及标引工作自动化处理过程进行了详细阐述.  相似文献   

17.
再探文献的自动标引   总被引:1,自引:0,他引:1  
从文献自动标引检索语言的选择,建立文献自动标引系统的基本路径及关键词的选词措施等三个方面,探讨了文献实施微机自动标引的基本方略。  相似文献   

18.
本文主要介绍利用微机通用管理系统ISIS的PASCAL语言开发的并集成于该系统的“汉语科技文献自动标引系统CADAIS”的系统构成,功能,自动标引原理,词典结构与建立方法,标引算法和实验情况等。  相似文献   

19.
本文介绍了用.数据库管理系统FOXBASE编写的自动标引系统,其中主要介绍的基本思想、实现过程及其特点。文中着重介绍了词标引、主题标引、赋词标引和抽调标引的方法,和在Compaq386机上建立的试验系统。  相似文献   

20.
本文论述网络环境下中文网页信息的自动标引技术,具体研究分析了面向信息检索的自动分词与词表技术,提出了一个中文网页自动标引的改进方案,以更好地实现中文网络信息资源的自动处理,最后从文档到知识转变的视角,研究第三代网页内容搜索中应用中文信息自动标引的技术问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号