首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
统计分析法自动标引的改进研究   总被引:2,自引:0,他引:2  
统计分析法自动标引是自动标引的一种重要方法。本文从标引词应反映文献主题内容这一原则出发,对统计分析法自动标引从标引源的确定、权值的设计、词频的调整及检索后控词表的设计与维护等方面提出了一些改进设想。通过这些方法使标引词更好地反映文献主题的同时提高检索效率。  相似文献   

2.
生物学文献自动标引系统的理论和实践   总被引:4,自引:0,他引:4  
韩客松  王永成  王刚 《情报学报》2000,19(3):259-264
在统计分析生物学中文文献的一些特点和手工标引的经验的基础上 ,本文介绍了以文献标题和摘要为标引源的自动标引方法。文章着重介绍了折半匹配的抽词和基于非线性加权体系的标引词抽取的理论和实践。  相似文献   

3.
针对中文学术文献,提出一种新的自动标引方法,该方法基于文献之间的引用关系,利用被引文献的标引词,对遗传算法进行改进,实现自动标引,避免利用文献正文、标题等内部文本特征进行自动标引的局限性。通过在大规模真实测试集(中文学术文献)上进行实验,验证该方法的有效性。  相似文献   

4.
本文介绍在SIEMENS7570 机上建立的自动文本检索原型系统,该系统是以改善用户与系统的交互界面为目的,可以用自然语言输入。该系统是从 COMPENDEX数据库中截取1988年有关计算机技术方面文献共18167篇,作为文献集合的数据,使用了自动标引、标引词加权、矢量匹配检索、排序输出等多项技术而实现的  相似文献   

5.
统计分析法自动标引的改进   总被引:12,自引:2,他引:10  
赵云志 《情报学报》2000,19(4):333-337
情报检索的目的是为用户服务,因而标引词的提取应以其与文献主题内容相关程度为标准。文章基于原有的统计分析标引法,对其权值设计予以重新考虑,并与文献词频统计相结合,使分词与标引相统一,标引词更好地反映文献主题概念,提高检索效率。  相似文献   

6.
自动标引研究的回顾与展望*   总被引:3,自引:0,他引:3  
对自动标引的研究进行总结与回顾。对标引对象进行界定;分析自动标引研究的3个阶段,并列出50年研究历程中的代表性方法;详细描述自动标引研究路线图、并对抽词标引与赋词标引方法进行详细分类;最后指出自动标引中存在的问题,并对今后的自动标引研究和应用方向进行展望。  相似文献   

7.
近五年来自动标引研究在关键词抽取、标引系统设计、自动分类标引、网络信息自动标引、数字图像标引、音频信息标引、视频信息标引、自动标引结果评价等方面取得很大进展,但尚存弱点与不足之处,还不能达到人工标引的效果。今后的研究将朝着探索更优越的语言分析技术、更高端的多媒体信息自动标引方法、高效的知识库智能自学习机制、多种标引方法或模型的互补的集成学习等方向发展。  相似文献   

8.
新中国成立以来,我国的文献标引经历了从分类标引、主题标引到多元化标引的过程,标引方法愈加丰富,标引技术不断进步,逐步由人工标引、机器辅助标引过渡到自动标引,进一步向智能标引方向发展。虽然国内针对文献标引及相关技术的研究较为丰富,但是对文献标引的综述性研究却相对薄弱,无法有效地呈现在现代信息技术驱动下,文献标引领域的发展态势和应用前景。本文在已有研究的基础上,对我国文献标引研究趋势进行分析,提出我国文献标引研究主要呈现两个阶段的发展态势:一是21世纪之前的以传统标引为主体的发展阶段;二是21世纪之后的以自动标引为主体的发展阶段。人工及机器辅助等以传统标引为主体的研究,为自动标引的发展奠定了良好基础,促使自动标引在标引技术、标引系统和标引方法等方面都取得了较为显著的发展,文献标引的应用领域得到更为深入的拓展。但是,文献标引研究更多是在人工智能领域和语言学领域,势必需要图情领域充分发挥自身在文献标引领域研究的理论和实践的优势,再结合其他学科的研究成果,从而使图书馆学传统的文献标引技术符合时代的发展,并产生溢出效应,和其他学科共同发展。  相似文献   

9.
LSI潜在语义标引方法在情报检索中的应用   总被引:9,自引:2,他引:7  
介绍了一种基于词相依性的语义结构, 被称为“潜在语义标引”的文献自动标引和检索技术。采用词频统计和奇值分解技术来捕捉文献的语义结构, 得到标引词、提问和文献的向量表示, 检索系统可以预测文献与提问之间的相关度, 达到检索的目的。  相似文献   

10.
基于知识库的网页自动标引和自动分类系统的设计   总被引:15,自引:0,他引:15  
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。  相似文献   

11.
使用基于《中图法》知识库的中文信息自动标引和自动分类系统,对中文图书进行自动标引与自动分类的实验,以测试该系统对图书的适用性。实验通过对中文图书进行计算机自动标引与自动分类、人工打分测评、测试结果统计分析,得出中文图书的各标引源主题表达能力依次为:书名、内容提要、两级目次、参考文献、一级目次,在此基础上对标引源进行加权设计,权值设为5:3:2:2。实验证明该系统用于中文图书的自动标引与自动分类是可行的。表6。参考文献9。  相似文献   

12.
论自动标引的实际应用   总被引:2,自引:0,他引:2  
探讨电子环境下自动标引的特点、标引观念的转变以及影响自动标引的因素等问题。  相似文献   

13.
基于EMM中文抽词算法的XMARC主题信息挖掘   总被引:4,自引:0,他引:4  
王兰成 《情报学报》2005,24(1):82-86
本文在分词词典上采用区间最大词长,改进正向减字最大匹配法为“词首 长词匹配 短词推进”自动标引方法,从而有效地减少领域的分词歧义性和缩短标引时间。最后将该研究付诸于XMARC主题信息的挖掘与检索的实现,并证明其在时间和质量综合性能上的优越性。  相似文献   

14.
衡中青  熊歆 《图书馆论坛》2004,24(1):95-96,78
文章试图对自动索引的方法作一些探讨。首先介绍了自动索引的五种理论模型和六种自动标引方法,随后探讨了自动索引中不可或缺的两个对象——全文索引和数据库索引的原理。  相似文献   

15.
为缓解海量文献关键词标引的巨大压力,文章构建了用于海量文献关键词标引的计算机辅助加工系统,对标引数据预处理规范、自动标引核心工作区和人工标引校对平台进行了具体阐述。文章采用数据测试方法确定了自动标引软件,在单一软件不能满足标引要求后探索了多种机标结果后处理方式提升机标质量,最终由人工标引校对平台保证海量文献关键词标引质量的同时,将机标出现的问题和改进意见反馈给软件设计和词表维护,保证了计算机辅助加工系统的持续改进。  相似文献   

16.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。  相似文献   

17.
标引人员的智慧与文献标引的质量密切相关。提高标引人员的素养很重要。标引人员需要在标引实践中磨练。自动标引研究已有半个世纪,其标引质量至今未能超过人工标引而取代人工标引,究其原因在于计算机不具备优秀标引人员的智慧,不适应近乎艺术创造的标引作业。可以揣测,没有标引人员介入的、高度自动化的文献标引处理的实现,至少还要等待一个相当长的时间。人工标引研究的成果将有助于自动标引研究中一些难题的解决。不可轻视人工标引的研究。  相似文献   

18.
基于集成学习的自动标引方法研究   总被引:1,自引:0,他引:1  
目前大多数自动标引方法不能有效利用文本中包含的多个特征.而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取.同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量.为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引.实验结果表明基于集成学习方法的自动标引能提高标引结果的查准率和召回率.另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号