首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 937 毫秒
1.
档案主题标引实用算法   总被引:2,自引:1,他引:1  
本文介绍了档案文献主题词自动标引算法,该算法合理地构造了主题词切分词典,并将切分关键词和标引主题词的实现过程融为一体,使标引与检索算法变得简单清晰。本文还给出了主题词切分词典的维护算法,以及自动扩缩检算法。利用本算法思路编制的软件已用于实际的档案管理系统中。  相似文献   

2.
本文对比主题词自动标引分析了档案分类自动标引的主要难点问题 ,着重讨论了解决档案分类计算机自动标引程序设计中的档案分类词组动态拆分先组匹配、档案分类单元概念共性复分链接和隐性并列多主题概念自动分类标引这3项编程技术的基本设计思路。  相似文献   

3.
档案标引,就是把档案主题的自然语言,转换成规范化的检索语言的过程,检索语言主要有分类法语言和主题法语言两种,标引的实质就是赋予档案主题以分类号或主题词。本文就档案分类标引的有关问题,谈点粗浅看法。  相似文献   

4.
本文对公文与档案著录标引主题词和主题词标引在公文与档案检索中的重要作用作了阐述,对目前在主题词标引中存在的问题以及对检索产生的影响作了分析,提出了一些对策和值得思考的问题。  相似文献   

5.
档案主题标引具有规范性强、组配性好、专指性准等优点,同时对标引质量也要求较高。只有标引的每个主题词都是正式主题词,都是和主题概念相对应的、并能准确反映档案主题概念的主题词,才能最大限度地实现档案检索时的查全率和查准率。然而,在具体实践中,往往容易产生误差,影响标引质量。 一、标引度掌握不准 国家行业标准《档案主题标引规则》中将档案主题标引深度规定为“赋予一个标引对象主题词数量的多少。”在实际工作中,由于各人理解和判断的角度不同,对同一份档案标引的主题词数量有多有少,我们通常称之为标引过深和标引过浅。 1、标…  相似文献   

6.
档案主题词标引之我见   总被引:1,自引:0,他引:1  
主题词是在标引和检索中用以表达档案主题内容的规范化的词或词组。自上世纪80年代中期开始档案著录标引工作以来,主题词标引始终是各档案馆档案著录标引工作的瓶颈(因为当时大量的著录标引工作还集中在进馆档案上)。随着公文格式的规范化,主题词在公文形成阶段就已经标引完毕,减轻了档案馆的工作压  相似文献   

7.
现有的主题标引方法一般只能抽取文本中出现的词汇,无法从几万或数十万主题词中选择语义关联强且未出现的词汇;基于机器学习的多标签分类算法则需要每一个标签下有训练数据,限制了它们在主题标引上的应用。面向大规模主题词在海量文献上的标引需求,提出一个基于分布式词向量的混合型自动标引方法,利用大规模语料训练的词向量生成同维度的主题词表示向量和文本表示向量,实现主题词与文本语义相似度的计算。基于大规模语料构建主题词与普通词的映射表,使文本向量只和少量的语义强相关主题词向量比较,大大减少了计算量,提高了标引效率。开发的自动标引工具对近亿篇文献进行了主题标引,达到了较高的速度。与结巴关键词的实验对比结果显示,本文方法抽取的主题词与作者关键词重合度较低,且在去除结巴关键词中的非主题词后,取得了比结巴关键词更高的标引准确率;与人工标引的实验对比结果显示,随着人工标引词数量的增加,本文方法的效果、结果与人工标引结果的一致性在不断增加。  相似文献   

8.
通过对CALLS联合目录“中文书目分类—主题整理项目”中的U大类交通运输类的整理,发现CALIS数据库中存在着主题词标引次序混乱、同一主题的标引不一致、总论复分添加不统一、文献类型主题词局限及标引不可重复、增词原则不严谨和名称主题规范不标准,分类主题标引没有一体化等问题,要一一得以妥善解决,必须严格按照分类主题标引的细则、组配标引模式来进行标引,并建立主题规范记录库,以提高书目数据库的标引质量。  相似文献   

9.
文献信息计算机全文全自动标引方法   总被引:3,自引:0,他引:3  
为了满足越来越细化的文献信息服务的要求 ,必然会最终实现全文全自动标引和主题词检索加关键词全文检索的文献信息处理方法。文章在已研制成功的“计算机辅助标引系统”的基础上 ,提出了全文全自动标引的切词方法、匹配算法、加权校对算法 ,以及为配合切词和算法的要求应该设立的一系列数据库 ,并论述了它们的含义、功能和建库方法 ,提出了一种全新的文献信息全文全自动标引的实施方法。  相似文献   

10.
著录项目中最具有检索意义的是主题词,而著录工作的难点也在于如何准确提炼档案主题,选好主题词。主题词标引的准确、全面与否,直接影响着档案信息资源的检全率和检准率。在著录工作中,由于种种原因,有的档案工作者为提高工作效率,不仔细阅读档案内容,简单采用“望题标引”、“字面组配”等不恰当的主题词标识方法,导致主题标识不能准确反映档案内容,出现主题词“标引不足”或者“标引过度”,降低著录质量。所谓“标引不足”是指著录标引时选择的主题词不能全面、准确地解释档案内容,造成对档案内容的漏著、误著。如“一份关于XX县外贸出口…  相似文献   

11.
基于中国档案主题词表的自动标引控制研究   总被引:8,自引:2,他引:6  
王兰成  冯文杰  田梅 《情报学报》2002,21(2):177-180
本文阐述一种基于中国档案主题词表的自动标引方法 ,并给予实现。该方法将切分关键词和标引主题词融为一体 ,合理地构造了词典 ,并讨论了其中的一些关键技术问题。文章最后介绍该研究应用于中国档案机读目录计算机处理系统中  相似文献   

12.
分类表-叙词表转换系统的设计   总被引:7,自引:2,他引:5  
张雪英  侯汉清 《情报学报》2000,19(4):342-348
本文针对手工建立分类表-叙词表转换系统的缺点,用计算机设计了一个分类表-叙词表转换系统。系统以文献数据库标引数据(《中图法》及《汉语主题词表》)为实验对象,以金融银行学科为例建立了四种标引词(串)与分类号的对应模型,采用LogL统计方法实现分类号与主题词的自动对应和人工辅助筛选,并设置了模糊转换和精确转换两种分类号与主题词转换的模式。  相似文献   

13.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。  相似文献   

14.
文献信息自动标引研究   总被引:12,自引:0,他引:12  
作者认为我国文献自动标引研究的重点应由分词研究向实际标引研究转移。由此, 作者从标引源的确立、标引词权值的定义和使用、标引词库的构造、自动标引算法的实现等方面阐述了他们在自动标引方面的研究成果, 同时介绍了利用标引词库进行的检索改造。  相似文献   

15.
[目的/意义] 从用户角度出发,研究基于用户自然标注的TF-IDF辅助标引算法。[方法/过程] 首先以核心期刊论文中作者标注的关键词和分类号为源数据,通过对关键词词频进行统计,使用TF-IDF算法构建用户标注词表、形成标引知识库,然后通过IK Analyzer分词软件对待标引的科技项目数据进行切词和停用词处理,进而使用TF-IDF算法和位置加权算法提取科技项目数据的特征词,最终实现对科技项目数据进行关键词和分类的同步标引。[结果/结论] 实验结果表明,机标关键词与人标关键词的相似比在60%以上的科技项目数据占总数的68.1%,机标分类号与人标分类号前三位一致的占总数的83.9%,结果表明基于用户自然标注数据并采用TF-IDF算法在关键词和分类标引方面是可行的。  相似文献   

16.
使用基于《中图法》知识库的中文信息自动标引和自动分类系统,对中文图书进行自动标引与自动分类的实验,以测试该系统对图书的适用性。实验通过对中文图书进行计算机自动标引与自动分类、人工打分测评、测试结果统计分析,得出中文图书的各标引源主题表达能力依次为:书名、内容提要、两级目次、参考文献、一级目次,在此基础上对标引源进行加权设计,权值设为5:3:2:2。实验证明该系统用于中文图书的自动标引与自动分类是可行的。表6。参考文献9。  相似文献   

17.
后控规范的计算机处理   总被引:7,自引:1,他引:6  
分析了建立情报检索系统时受控主题标引的不足之处:标引效率低、语义网得不到扩充、不一致的组配标引。提出了以后控规范为基础的标引体系。为使后控规范能方便地由计算机实现,研究了利用相似性匹配技术找出语义上有一定联系的术语,并由计算机半自动地建立用、代、属、分、参等语义关系的方法。  相似文献   

18.
文书类档案的主题标引研究   总被引:4,自引:0,他引:4  
本文介绍一种基于全文的主题词自动标引方法。该方法将切分关键词和标引主题词融为一体,合理地构造了词典。本文还给出一个确定标引主题词的加权函数,讨论了一些相关的技术问题  相似文献   

19.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号