首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于概念向量空间的文档语义分类模型研究   总被引:1,自引:0,他引:1  
针对传统文档自动分类方法和目前语义分类方法中存在的问题,提出一种新的基于概念向量空间的文档语义分类模型,该模型通过字符匹配算法将原文档高维词向量空间中相互独立的词项匹配到描述本体概念的属性集合,进而映射成属性集合对应的本体概念,形成低维的、语义丰富的文档概念向量空间。采用目前非常流行的数据集“20Newsgroups”作为实验数据集,对基于概念向量空间的文档语义分类模型进行实验验证。实验结果表明:提出的文档语义分类方法与传统基于词向量空间的文档分类方法相比,能够极大地降低向量空间维度,提高文档分类的性能。   相似文献   

2.
随着Internet的发展,互联网上的学术文献数量呈指数增长,很难为科研工作者所利用,因此亟需一种方法对海量的网络学术文献进行自动的搜集、整理、分类。在前期充分的实验论证后,设计实现一个海量网络学术文献自动分类系统,该系统使用模块化设计,包括学术文献自动抓取模块、学术文献词-文档矩阵处理模块、本体集成模块以及基于语义驱动的分类模块。实验证明,该系统可以有效地完成海量学术文献的自动抓取、处理和分类工作。  相似文献   

3.
基于SUMO和WordNet本体集成的文本分类模型研究   总被引:1,自引:0,他引:1  
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和WordNet本体集成的文本分类模型,该模型利用WordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。  相似文献   

4.
现有的主题标引方法一般只能抽取文本中出现的词汇,无法从几万或数十万主题词中选择语义关联强且未出现的词汇;基于机器学习的多标签分类算法则需要每一个标签下有训练数据,限制了它们在主题标引上的应用。面向大规模主题词在海量文献上的标引需求,提出一个基于分布式词向量的混合型自动标引方法,利用大规模语料训练的词向量生成同维度的主题词表示向量和文本表示向量,实现主题词与文本语义相似度的计算。基于大规模语料构建主题词与普通词的映射表,使文本向量只和少量的语义强相关主题词向量比较,大大减少了计算量,提高了标引效率。开发的自动标引工具对近亿篇文献进行了主题标引,达到了较高的速度。与结巴关键词的实验对比结果显示,本文方法抽取的主题词与作者关键词重合度较低,且在去除结巴关键词中的非主题词后,取得了比结巴关键词更高的标引准确率;与人工标引的实验对比结果显示,随着人工标引词数量的增加,本文方法的效果、结果与人工标引结果的一致性在不断增加。  相似文献   

5.
从题名抽取关键词,把题名作为基于本体自动分类的文本主体,实现海量科技论文高效、精准地分类,已经成为图书馆事业发展的重要课题。本文利用文本内部词汇的语义关联特性,在高频词和隐含主题两个不同粒度层面,构建了基于BTM模型的题名信息自动分类方法:首先从细粒度层面进行词频统计,提取领域高频词;随后从粗粒度层面进行BTM模型分析,得到主题关键词;之后,将两者去重合并获得领域核心词集;最后,利用SVM算法进行文本分类。该方法有效地实现了知识的快速聚类和关联自动分类,为用户提供了满意度更高的知识发现及相关扩展服务。  相似文献   

6.
Web自动文本分类技术研究综述   总被引:1,自引:0,他引:1  
Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.本文首先分析了国内外Web自动文本分类方法的研究现状,接着对新近出现的多分类器融合的方法、基于群的分类方法、基于RBF网络的文本分类模型、基于模糊-粗糙集的文本分类模型、潜在语义分类模型等新方法,以及K-近邻算法和支持向量机的新发展等进行了深入探讨;并对Web自动文本分类过程中的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法等进行了分析;最后总结了当前Web自动文本分类技术存在的问题及其发展趋势.  相似文献   

7.
LSI潜在语义标引方法在情报检索中的应用   总被引:9,自引:2,他引:7  
介绍了一种基于词相依性的语义结构, 被称为“潜在语义标引”的文献自动标引和检索技术。采用词频统计和奇值分解技术来捕捉文献的语义结构, 得到标引词、提问和文献的向量表示, 检索系统可以预测文献与提问之间的相关度, 达到检索的目的。  相似文献   

8.
通过比较国外学术信息的“开放存取”运动和“公众存取科学文献”政策的异同及对相关实践经验进行分析,强调“公众存取”政策对于改善学术信息传播具有重要意义。针对国内外学术信息传播领域的现状,探讨我国实行公众存取政策的必要性和可行性,进而提出在制定政策的过程中应注意的一些问题。  相似文献   

9.
[目的/意义] 社交媒介不仅提供了用户间知识交流的平台,而且形成了知识复用的渠道。一部分社交网络用户在信息传播、知识共享等方面都能够对其他用户产生影响,称之为“小众专家”。对“小众专家”群体的研究对于社交网络中信息传播具有促进作用。[方法/过程] 以MetaFilter数据集为例,利用用户社交网络活动数据,生成用户关系网络,结合网络分析与时序分析筛选“小众专家”,分析“小众专家”群体在不同语义环境下的“稳定-迁移”特征,并提出评测指标,进行验证分析。[结果/结论] 结果显示:只有极少部分“小众专家”能够在多种语义环境下保持稳定性,而大部分“小众专家”只能在单一语义环境中保持稳定性。  相似文献   

10.
文本分类是网络主题舆情分析中的关键技术,传统Web文本分类将文本关键词的相似度作为分类依据,丢失许多重要的语义信息,导致分类结果不够准确且计算量大.本文提出一种基于语义相似度的Web文本分类方法,利用特定的领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量,给出Web文本相似度的计算公式并实现基于语义相似度的KNN算法.结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少计算量并提高了分类精确度.  相似文献   

11.
借鉴文本自动分类思想,基于文档权重归并法,采用N元语言模型,设计一个专家领域识别实验系统;并以“武汉大学”为例对专家研究领域自动识别的效果进行初步评测,实验结果表明该系统对专家研究领域的自动识别具有很高的查准率。  相似文献   

12.
[目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。  相似文献   

13.
本文探讨了本体与语义Web的关系、本体在语义Web文本分类中的作用,并重点探讨了基于本体的语义Web文本分类的特点以及Web文本分类器的一般工作原理.  相似文献   

14.
关于“核心出版社”的理论探索   总被引:4,自引:1,他引:3  
文献信息的分散是普遍的客观现象,同时文献信息的分布又是相对集中的。基于图书文献与期刊文献这一共同之处,可以借鉴“核心期刊”研究和操作的成功经验,在图书采购领域引进“核心出版社”的概念,并用以指导藏书建设。  相似文献   

15.
基于领域本体实现Web文本挖掘研究   总被引:1,自引:0,他引:1  
阮光册 《图书情报工作》2011,55(18):116-120
为弥补改进传统Web文本挖掘方法缺乏对文本语义理解的不足,采用本体与Web文本挖掘相结合的方法,探讨基于领域本体的Web文本挖掘方法。首先创建Web文本的本体结构,然后引入领域本体“概念-概念”相似度矩阵,并就概念间关系识别进行描述,最后给出Web文本挖掘的实现方法,发现Web文本信息的内涵。实验中以网络媒体报道为例,通过文本挖掘得出相关结论。  相似文献   

16.
为解决向量空间模型中文本结构和语义信息的缺失问题,本文提出将复杂网络应用到中文文本分类过程中,将文本表示为以特征词为节点,以词语语义相关关系为边,以其相关关系强弱作为边权重的加权复杂网络,利用网络节点的综合特性对文本进行特征选择,以降低文本网络的复杂性.给出基于复杂网络的中文文本分类算法并对其进行实验验证.结果表明,该算法是可行的,且有较好的分类效果.  相似文献   

17.
本文开展了基于混合深度信念网络的多类文本表示与分类方法的研究,以解决传统的Bag-of-Words(BOW)表示方法忽略文本语义信息、特征提取存在高维度高稀疏的问题。文章基于文本关键字,针对多类的分类任务(如新闻文本和生物医学文本),以关键字的词向量表示作为文本输入,同时结合深度信念网络(Deep Belief Network,DBN)和深度玻尔兹曼机网络(Deep Boltzmann Machine, DBM),设计了一种混合深度信念网络(Hybrid Deep Belief Network,HDBN)模型。文本分类和文本检索的实验结果表明,基于词向量嵌入的深度学习模型在性能上优于传统方法。此外,通过二维空间可视化实验,由HDBN模型提取的高层文本表示具有高内聚低耦合的特点。  相似文献   

18.
传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。  相似文献   

19.
领域本体在知识管理和语义网中起到越来越重要的作用,本文按照从提取主题词、概念的筛选与取舍、概念名称的规范化处理、概念分类体系的调整与概念归类、主题词表的编制与修订、确定概念间的语义关系、领域本体的形式化建模等程序构建了数字出版领域本体,并利用保护软件(Protégé)完成该本体的形式化和可视化显示.建成后的本体具备文本自动标引、文献信息语义检索与可视化检索、术语服务等功能.  相似文献   

20.
主题词表即叙词表,是以特定的结构集合展示经过规范化处理的优选词和非优选词及其词间语义关系,作为标引和检索的术语控制工具。主题词表自诞生以来得到了很好的应用。例如,EI叙词表支撑EngineeringVillage文献平台的检索、浏览等功能;联合国粮食及农业组织编制的AGROVOC叙词表包含21种语言,在农业方面得到广泛应用;美国NASA叙词表在美国航空航天领域得到较好应用。随着互联网技术高速发展,大数据时代对主题词表提出了新的应用需求,不仅在图书情报机构中应用,更需要在跨界的相关机构中应用。例如,当前发达国家将主题词表应用于电子政务环境下政府信息的描述和提取中,利用主题词表建立知识库的自动分类系统,实现知识本体意义上概念关系的智能推理和语义聚类:应用于电子商务环境和大型企业的知识管理领域中,利用主题词表对海量信息的知识点进行自动标注,实现不同颗粒度的智能查询、领域监测、知识挖掘、领域知识聚类等应用;在医学、教育领域主题词表也应用于词语切分、信息抽取、聚类、词频统计、情感分析等文本信息处理基础工作,利用主题词表进行英汉对照索引,实现英汉跨语言检索和辅助机器翻译功能。这些应用无疑都存在一个需要精确定位信息的较大的社会需要。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号