共查询到17条相似文献,搜索用时 187 毫秒
1.
2.
基于集成学习的自动标引方法研究 总被引:1,自引:0,他引:1
目前大多数自动标引方法不能有效利用文本中包含的多个特征.而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取.同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量.为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引.实验结果表明基于集成学习方法的自动标引能提高标引结果的查准率和召回率.另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果. 相似文献
3.
谈谈自建库关键词标引规则 总被引:2,自引:0,他引:2
关键词标引属于自由标引,参照国际标准和国家标准,制定本单位的关键词标引规则十分重要.论述了关键词标引中的主题分析、标引方式与标引深度、关键词的选取原则诸问题. 相似文献
4.
5.
6.
目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量。为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引。实验结果表明,基于集成学习方法的自动标引能提高标引结果的查准率和召回率。另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果。 相似文献
7.
8.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。 相似文献
9.
基于分类标注语料库的关键词标引知识自动获取 总被引:1,自引:0,他引:1
基于大规模层级分类语料库,抽取网页上专家已经标引的关键词形成关键词表;针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识,结合统计方法,完成了一个知识与统计相结合的关键词自动标引系统。 相似文献
10.
11.
杨贺杨奕虹乔晓东李宁朱礼军 《现代图书情报技术》2010,26(6):17-24
讨论计算机辅助标引文献加工系统中自然语言词表系统的建立过程。基于海量文献人工标引,运用计量分析法对多年来积累的人工标引词从词频、词长、词类型、词共现等多方面进行分析,重点阐述运用字面相似度计算词间关系来建立适用于机标和后控词表的自然语言词表的过程。 相似文献
12.
基于作者中文图书主题标引的工作实践,重点阐述了中文图书主题标引工作中的主题词的查找、在版编目数据的利用以及标引工具书的使用。同时,就标引人员如何提高中文图书主题标引质量谈了自己的看法。 相似文献
13.
14.
[目的/意义] 从用户角度出发,研究基于用户自然标注的TF-IDF辅助标引算法。[方法/过程] 首先以核心期刊论文中作者标注的关键词和分类号为源数据,通过对关键词词频进行统计,使用TF-IDF算法构建用户标注词表、形成标引知识库,然后通过IK Analyzer分词软件对待标引的科技项目数据进行切词和停用词处理,进而使用TF-IDF算法和位置加权算法提取科技项目数据的特征词,最终实现对科技项目数据进行关键词和分类的同步标引。[结果/结论] 实验结果表明,机标关键词与人标关键词的相似比在60%以上的科技项目数据占总数的68.1%,机标分类号与人标分类号前三位一致的占总数的83.9%,结果表明基于用户自然标注数据并采用TF-IDF算法在关键词和分类标引方面是可行的。 相似文献
15.
文书类档案的主题标引研究 总被引:4,自引:0,他引:4
本文介绍一种基于全文的主题词自动标引方法。该方法将切分关键词和标引主题词融为一体,合理地构造了词典。本文还给出一个确定标引主题词的加权函数,讨论了一些相关的技术问题 相似文献
16.
《图书情报工作》论文关键词及分类号的统计分析 总被引:2,自引:0,他引:2
运用文献计量学方法,统计2001-2003年《图书情报工作》论文关键词及分类号,并对其数量、内容、标引质量等进行研究分析。结果显示,该刊关键词和分类号的标引质量较高,但还有不足之处。希望广大论文作者和编辑人员共同努力,进一步提高科技论文的标引质量。 相似文献
17.
组配标引是在词表中选择两个及两个以上有形式逻辑关系的词,按照特定规则组成的一组标引词串,用以满足文献多层次、多途径检索的需要。概念组配是文献标引的关键环节。根据参与组配的主题词之间的逻辑关系,概念组配可分为交叉组配、限定组配和联结组配3种基本类型。在实际组配标引工作中,编目员应避免因对新词表不熟悉造成检索词语构成混乱,避免因主题概念转换错误造成粗标、漏标和错标,避免因未遵循专指性标引规则造成切题不当,减少组配标引失误。 相似文献