共查询到20条相似文献,搜索用时 437 毫秒
1.
2.
我国两大文献数据库标引质量的测评 总被引:1,自引:0,他引:1
章对《中科技期刊数据库》和《中社科报刊篇名数据库》分类标引和 主题标引的质量进行了定量测评与分析,指出各自的优势与不足。测评的指标包括标引深度、标引专指度及一致性,还包括主题词取自题名的情况等。 相似文献
3.
对科技论文依据《汉语主题词表》标引关键词问题的思考 总被引:3,自引:0,他引:3
本文在论述关键词定义和《汉语主题词表》局限性的基础上,提出关键词是一种不受词表控制的自由词,它和主题词之间不是等同关系和属种关系,标引关键词不应受《汉语主题词表》控制。《汉语主题词表》更新慢,容量和专指度不足,不适合用于科技论文的主题标引,宜改用专业性叙词表或参考《中国分类主题词表》进行分类和主题的一体化标引。 相似文献
4.
一年多来,北京图书馆中文统一编目组不仅利用《中图法》对图书进行分类标引,而且利用《汉语主题词表》(以下简称《词表》)对图书进行主题标引。由于分类标引和主题标引都是在分析图书主题的基础上给以标识的过程,其不同之处仅在于分类标引是给分类号,而主题标引是给主题词(标题);所以在图书馆的实际工作中,两种标 相似文献
5.
6.
主题标引的专指性,一般指主题标识所能准确表达档案文献主题的性质。专指性是决定主题检索查准率的重要前提,是衡量标引质量的重要标准之一。目前,有些高校依据《高等学校档案主题词表》(以下简称《高表》)开展了主题标引工作,但在实际工作中经常出现一系列标引非专... 相似文献
7.
为了提高海量新闻信息分类的效率,本文探索研究基于Transformer(转换器)模型和《中文新闻信息分类与代码》标准的自动分类标引,包括自动归类、聚类、检索标志的智能抽取,以及人工标引和自动标引的互相结合。Transformer模型训练数据特征效率更高,适应能力更强。基于标准的自动分类表更灵活,更高效,自动标引具有广泛的应用前景。 相似文献
8.
《中国分类主题词表》(简称中分表)是我国规模最大的一部同时用于分类主题标引的分类主题一体化词表。选取医学和教育大类,从类目与主题两个方面,分别统计和比较研究了二者的规模和词汇性能,包括标引深度、等同率、参照度、关联比等,并提出了一些改进建议。 相似文献
9.
10.
档案主题标引具有规范性强、组配性好、专指性准等优点,同时对标引质量也要求较高。只有标引的每个主题词都是正式主题词,都是和主题概念相对应的、并能准确反映档案主题概念的主题词,才能最大限度地实现档案检索时的查全率和查准率。然而,在具体实践中,往往容易产生误差,影响标引质量。 一、标引度掌握不准 国家行业标准《档案主题标引规则》中将档案主题标引深度规定为“赋予一个标引对象主题词数量的多少。”在实际工作中,由于各人理解和判断的角度不同,对同一份档案标引的主题词数量有多有少,我们通常称之为标引过深和标引过浅。 1、标… 相似文献
11.
基于概念空间方法的信息检索技术研究 总被引:14,自引:0,他引:14
为了解决词汇差异问题,词表构造在信息检索系统中有着重要意义。概念空间方法是利用计算机自动构造概念语义网络(词表)并以此为基础进行概念检索的一种方法。由词语作为语义网络的节点,词语之间的关联权重以一个给定文档集合中词语的共现率来计算,其大小代表它们之间的相似性。检索时系统采用人工智能方法激活与检索入口词相关的术语或概念,为用户提供交互式的检索用语建议。方法的具体步骤包括文档和对象列表收集、对象过滤和自动标引、共现分析和联想检索四个阶段。这种方法多用于英文检索系统,但对我国的信息检索系统也有重要的借鉴意义。 相似文献
12.
杨贺杨奕虹乔晓东李宁朱礼军 《现代图书情报技术》2010,26(6):17-24
讨论计算机辅助标引文献加工系统中自然语言词表系统的建立过程。基于海量文献人工标引,运用计量分析法对多年来积累的人工标引词从词频、词长、词类型、词共现等多方面进行分析,重点阐述运用字面相似度计算词间关系来建立适用于机标和后控词表的自然语言词表的过程。 相似文献
13.
基于受控词表互操作的集成词库构建研究 总被引:2,自引:0,他引:2
目前,国内外信息领域都在致力于受控词表的互操作研究.本文以教育类数据为例,通过对检索语言互操作技术的研究,借鉴国内外实现不同受控词表之间互操作的经验和方法,建立一个以<中分表>为核心的兼容体系,即建立一个可以不断扩充的集成词库.为了便于浏览和使用词库数据,采用单机模式、XML格式及本体构建工具对词库兼容数据进行可视化显示,进而为用户提供各种服务. 相似文献
14.
15.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。 相似文献
16.
[目的/意义] 从用户角度出发,研究基于用户自然标注的TF-IDF辅助标引算法。[方法/过程] 首先以核心期刊论文中作者标注的关键词和分类号为源数据,通过对关键词词频进行统计,使用TF-IDF算法构建用户标注词表、形成标引知识库,然后通过IK Analyzer分词软件对待标引的科技项目数据进行切词和停用词处理,进而使用TF-IDF算法和位置加权算法提取科技项目数据的特征词,最终实现对科技项目数据进行关键词和分类的同步标引。[结果/结论] 实验结果表明,机标关键词与人标关键词的相似比在60%以上的科技项目数据占总数的68.1%,机标分类号与人标分类号前三位一致的占总数的83.9%,结果表明基于用户自然标注数据并采用TF-IDF算法在关键词和分类标引方面是可行的。 相似文献
17.
[目的/意义]以公共图书馆、博物馆、美术馆和群众艺术馆数字资源整合为例,探讨通过赋予受控词汇"身份",提高资源检索的效率的方法。[方法/过程]定义多维坐标系统空间面、主题坐标轴和坐标点;通过为词汇概念赋予标识符,建立概念与词汇的关联,按一定规则为词汇赋予"身份",以概念优选机制、关联数据技术与索引表构建作为其辅助。此外,通过解析用户检索词语义,构建语义标识符,并对概念标识符进行拆分、组合,利用测算标识符点距的方法建立语义标识符与概念标识符之间的映射关系,实现检索维度优选。[结果/结论]多维坐标系统的坐标关系模型以"面-线-点"的坐标关系处理层次为基础,以"概念定位-词汇定位-资源定位"的检索层次为依据,并结合优选、关联与索引,拆分、组合与点距等相关实现机制,通过量化方法来处理词汇关系,能够提高机器对词汇的理解。 相似文献
18.
19.
20.
张云 《现代图书情报技术》2010,26(4):87-91
采用开源软件Lucene、IKAnalyzer、Luke进行中文学术文献计量软件的开发实践。介绍该软件的实现框架、数据准备、索引建立、自定义SemicolonAnalyzer分析器中的关键实现代码,并对该软件的不同计量效果进行分析。研究的主要目的是利用开源软件降低计量软件开发的复杂度,为研究人员提供一种自行开发中文学术文献计量软件的可行方法。 相似文献