共查询到20条相似文献,搜索用时 140 毫秒
1.
2.
自动标引研究的回顾与展望* 总被引:3,自引:0,他引:3
章成志 《现代图书情报技术》2007,2(11):33-39
对自动标引的研究进行总结与回顾。对标引对象进行界定;分析自动标引研究的3个阶段,并列出50年研究历程中的代表性方法;详细描述自动标引研究路线图、并对抽词标引与赋词标引方法进行详细分类;最后指出自动标引中存在的问题,并对今后的自动标引研究和应用方向进行展望。 相似文献
3.
基于多词表的自动标引技术研究——新华社新闻稿自动标引的实验 总被引:9,自引:0,他引:9
避开汉语分词中的技术特点 ,转向基于多词表自动标引抽词研究是当前中文信息自动主题与分类标引可以采取的一种策略 ,也是最为可行的方法。本文以新华社新闻稿中的题名和导语为对象 ,详细介绍了基于多词表自动标引技术中的词表构建、自动抽词、主题标引和自动分类等技术。并成功设计了新闻信息自动标引的实验系统 ,取得了较好的效果。 相似文献
4.
单汉字标引技术的改进研究 总被引:10,自引:0,他引:10
王淼 《现代图书情报技术》1997,13(2):48-53
本文针对汉语构词的特殊性, 提出了一种单汉字标引的改进算法。该算法在标引上采用了对非检索词词首字的剔除标引, 在检索上, 采取检索词首字查找, 检索词直接匹配的算法。还提出了对检索结果的存储以及构筑后控词典, 以逐步完善单汉字检索系统。以上算法, 在SCIRS (Single Chinese Character Indexing and Retrieval System) 得到初步实现。 相似文献
5.
施利军 《现代图书情报技术》1992,8(4):42-45
本文介绍了用.数据库管理系统FOXBASE编写的自动标引系统,其中主要介绍的基本思想、实现过程及其特点。文中着重介绍了词标引、主题标引、赋词标引和抽调标引的方法,和在Compaq386机上建立的试验系统。 相似文献
6.
文献信息自动标引研究 总被引:12,自引:0,他引:12
作者认为我国文献自动标引研究的重点应由分词研究向实际标引研究转移。由此, 作者从标引源的确立、标引词权值的定义和使用、标引词库的构造、自动标引算法的实现等方面阐述了他们在自动标引方面的研究成果, 同时介绍了利用标引词库进行的检索改造。 相似文献
7.
微机辅助文献标引系统的设计与研究 3. 自动标引研究 总被引:2,自引:0,他引:2
在微机辅助文献标引系统中引入了自动标引方法, 进一步提高了标引的速度和质量。自动标引的基本思想是: 以机内主题词典为依据, 采用遍历扫描和相似性匹配两种方法, 从标题和文摘中抽词, 本文介绍了这一自动标引技术, 并对自动标引的结果进行了分析和讨论。 相似文献
8.
WD-ZBJ中文文献自动标引检索系统 总被引:1,自引:0,他引:1
本系统是在IBM-PC机上应用dbaseⅢ实现的。具有自动标引、机编索引、联机检索和定题服务等功能。采用“关键词的部件词一尾续词词典”和“非关键词部件词词典”对篇名(或文摘等)进行自动抽取关键词。其主要特点是采用“关键词规范化词典”对关键词进行规范处理,使同义词规范化,使同一族的一组词相对集中,显著提高了自动标引质量,从而提高了关键词法的检索效率。 相似文献
9.
标引人员的智慧与文献标引的质量密切相关。提高标引人员的素养很重要。标引人员需要在标引实践中磨练。自动标引研究已有半个世纪,其标引质量至今未能超过人工标引而取代人工标引,究其原因在于计算机不具备优秀标引人员的智慧,不适应近乎艺术创造的标引作业。可以揣测,没有标引人员介入的、高度自动化的文献标引处理的实现,至少还要等待一个相当长的时间。人工标引研究的成果将有助于自动标引研究中一些难题的解决。不可轻视人工标引的研究。 相似文献
10.
11.
基于条件随机场的自动标引模型研究 总被引:3,自引:1,他引:2
条件随机场(Conditional Random Fields,CRF)模型是一种概率图模型.为了有效利用标引对象的特征,并考虑到抽词标引可以转换为序列标注问题,本文提出基于条件随机场的自动抽词标引模型.实验结果表明,该模型在改善抽词标引的性能方面,要优于支持向量机、多元线性回归模型等其他机器学习方法,是到目前为止解决序列标注问题的最好方法.但是,该模型本身还不能解决由于样本中存在同义词和相近词带来的问题,需要进一步对训练集和标引过程中存在的词汇语义情况进行考虑,提高标引的质量. 相似文献
12.
13.
基于EMM中文抽词算法的XMARC主题信息挖掘 总被引:4,自引:0,他引:4
本文在分词词典上采用区间最大词长,改进正向减字最大匹配法为“词首 长词匹配 短词推进”自动标引方法,从而有效地减少领域的分词歧义性和缩短标引时间。最后将该研究付诸于XMARC主题信息的挖掘与检索的实现,并证明其在时间和质量综合性能上的优越性。 相似文献
14.
基于知识库的网页自动标引和自动分类系统的设计 总被引:15,自引:0,他引:15
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。 相似文献
15.
引文主题与源文献主题具有相关性.基于这一事实,本文提出了一种基于汉语科技文献引文的自动标引法.具体过程是以词典为依据对源文献与引文题名进行抽词处理,并为不同类型引文赋予不同的权重,在此基础上确定用于标引源文献的关键词.本文还对此法的可行性进行了测试,并提出了改进方法. 相似文献
16.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。 相似文献
17.
中文期刊文献通用词标引分析 总被引:1,自引:0,他引:1
通用因素是文献主题的构成因素之一,对主体因素起细分作用。通用词是指那些在专业领域没有独立检索意义的泛指词。在中文期刊文献标引的过程中,通用词的使用对其标引结果产生着重要的影响。文章讨论了通用词标引的一般规则,并以《中国期刊网》中的文献为例,进行抽样统计和实例分析,归纳了通用词标引的错误现象及其原因,并对期刊文献的通用词标引提出了几点改进意见。 相似文献
18.
19.
自动标引是现代信息检索研究工作的重点之一,论述了自动标引的整个过程中所应该注意的问题,并描绘了自动标引的流程图。 相似文献
20.