共查询到20条相似文献,搜索用时 218 毫秒
1.
关键词自动标引系统实现 总被引:1,自引:0,他引:1
刘华 《现代图书情报技术》2006,(2):88-90
基于已标注关键词的大规模分类语料库,依据领域专家知识,统计得到词语表征文本内容主题概念的主题度。以此为基础,完成了一个关键词自动标引系统,详细描述了系统实现的总体流程和功能模块。 相似文献
2.
基于知识库的网页自动标引和自动分类系统的设计 总被引:15,自引:0,他引:15
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。 相似文献
3.
谈谈自建库关键词标引规则 总被引:2,自引:0,他引:2
关键词标引属于自由标引,参照国际标准和国家标准,制定本单位的关键词标引规则十分重要.论述了关键词标引中的主题分析、标引方式与标引深度、关键词的选取原则诸问题. 相似文献
4.
关键词标引中常见问题与分析 总被引:3,自引:0,他引:3
关键词标引是一个专业性很强的技巧性工作,如果标引不科学、不规范,就不利于检索系统采用,等于没有标引。当前,我国科技期刊论文关键词标引存在的问题主要有:1主题概念转换不恰当关键词是由叙词(正式主题词)和自由词组成的,但在标引过程中应尽量将主题分析时提炼... 相似文献
5.
学术论文的关键词标引 总被引:6,自引:0,他引:6
杨一琼 《大学图书情报学刊》2004,22(1):63-64
关键词有许多优点 ,标引关键词是学术期刊对论文作者的基本要求 ,但关键词的标引还存在不少问题。文章就关键词的特征、选取、标引步骤等内容进行了分析和探讨 ,以期对关键词有进一步的了解 ,希望关键词的标引能渐趋合理。 相似文献
6.
7.
随着计算机硬件设备的改进和软件技术的提高,采用关键词法设计和建立的计算机档案主题检索系统也越来越多。为了提高档案关键词检索系统的整体效能,标引时,无论是人工标引还是机器自动标引,是抽词标引还是赋词标引,检索时,无论是题名关键词检索,还是全文检索,是截... 相似文献
8.
目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量。为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引。实验结果表明,基于集成学习方法的自动标引能提高标引结果的查准率和召回率。另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果。 相似文献
9.
对科技论文依据《汉语主题词表》标引关键词问题的思考 总被引:3,自引:0,他引:3
本文在论述关键词定义和《汉语主题词表》局限性的基础上,提出关键词是一种不受词表控制的自由词,它和主题词之间不是等同关系和属种关系,标引关键词不应受《汉语主题词表》控制。《汉语主题词表》更新慢,容量和专指度不足,不适合用于科技论文的主题标引,宜改用专业性叙词表或参考《中国分类主题词表》进行分类和主题的一体化标引。 相似文献
10.
11.
主题词与关键词相结合的词表在网络信息处理中的应用 总被引:7,自引:0,他引:7
分析网络环境下传统主题词表和关键词表在文献信息处理中的不足之处,由此提出一种将主题词表和关键词表结合起来,保留各自的特点和优势的新的词表标引与检索方法。 相似文献
12.
13.
[目的/意义]关键词是检索期刊论文的重要入口之一,其标注质量直接影响检索效果。规范、科学的关键词,不仅可以提高论文的检准率,而且可以更准确地揭示论文的主题内容。[方法/过程]利用语言学的直接成分分析法和统计学的分析方法,以近5年图书情报学科"基于……的……"论题的3 636篇论文的题录为数据,通过对论题要素的识别与标注,并与作者标注的关键词进行对比分析,判断作者标注关键词所反映论文研究内容的科学性。同时将作者标注的关键词与领域主题词表进行比对,判断其关键词标注的规范性。[结果/结论]通过对比与统计分析后得出如下结论:①37.16%的论文关键词存在与论题要素不一致,不能准确描述论文研究主题内容的情况;②96.88%的论文关键词存在不同程度的标注不规范情况。在此基础上,提出关键词规范选取的策略。 相似文献
14.
[目的/意义] 针对包含单一类型知识单元的知识网络难以全面反映学科知识结构的问题,提出一种从多维度进行知识网络结构融合的方法,为学科领域知识结构挖掘提供借鉴。[方法/过程] 利用LDA及TF-IDF方法抽取学科知识单元,然后运用语义相似度和关键词共现分析方法构建3个学科知识子网络:主题网络、关键词网络和实体网络,并采用空间节点传递对齐方法对齐子网络节点,接着设计基于图卷积操作的自编码模型对知识节点进行表示,最后通过计算余弦相似度重构学科知识网络。[结果/结论] 实验部分以人工智能领域为例,构建融合主题、关键词和实体的学科知识网络并展开分析,实验结果表明,本文所提方法能有效地揭示学科领域研究内容和知识结构,为学科知识发现与组织研究提供有益参考。 相似文献
15.
共词分析法应用的规范化研究——主题词和关键词的聚类效果对比分析 总被引:2,自引:0,他引:2
16.
搜索引擎新思维 总被引:7,自引:1,他引:6
曹玉霞 《现代图书情报技术》2000,16(5):33-34
网络资源正在以指数级的速度增长, 如何更好地组织这些信息变得越来越重要。本文在分析和评价现有搜索引擎的两种组织方法, 即关键词索引和等级式主题索引的基础上, 提出了一种新型的索引组织方法——联合索引, 它有机地把前两种组织方法结合了起来, 充分发挥了它们各自的优点。这种方法的基本思路为: 以《中国分类主题词表》为基础, 精选主题词(或主题词串) , 并把它们按学科等级关系建成一棵棵主题词树, 然后把由索引软件所抽取的关键词, 根据语义关系 (主要是同义词关系) 与相应的主题词联结起来, 以实现充实等级式主题索引工作的自动化和关键词索引的高级智能检索。 相似文献
17.
学科门户智能搜索引擎的设计与构建——农业史门户搜索引擎的实验 总被引:1,自引:0,他引:1
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论. 相似文献
18.
〔摘要〕 对CSSCI来源文献标引主题词进行多维聚类分析:首先选择22个学科及其来源关键词数据,通过建立相似性矩阵分析各学科关系,并采用降维办法在二维平面上显示22个学科的相对位置,然后将各关键词按照其和各学科的关系,通过可视化的主题词分布图绘制中国人文社会科学的科学地图,借助该地图可以可视化地了解当前国内人文社会科学各学科关系,揭示2000-2004年中国人文社会科学发展的基本关系和趋势。 相似文献
19.
20.
[目的/意义] 重点针对一些在数据库中无法找到既定的主题分类,无法罗列完整关键词,也不可能通过选择有代表性机构和现成的学科领域核心期刊的方法实现数据集构建的领域,提出一种基于期刊主题相似性的领域分析数据集构建的方法。[方法/过程] 该方法组合运用引文分析与期刊文献耦合分析方法,并借助科学知识图谱绘制方法,通过确定学科领域的代表性期刊群组,经过不同形式的组配最终达到满足不同层次需求的构建数据集的目的。[结果/结论] 本方法可以满足宏观、中观和微观不同领域分析层次的需求,操作过程简单灵活且人工干预的程度不高,通过在具体领域的实例验证,证明其可以有效地解决一些领域数据集构建的难题,对今后相关研究具有一定借鉴意义。 相似文献