首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 0 毫秒
1.
基于SUMO和WordNet本体集成的文本分类模型研究   总被引:1,自引:0,他引:1  
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和WordNet本体集成的文本分类模型,该模型利用WordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。  相似文献   

2.
为了有效处理文本中的复杂语义问题,提出了一种基于领域本体的SOM文本逐层聚类方法.该方法基于领域本体的概念及其逻辑语义关系,将文本向量的表示从词的层面上升到主题概念层面,大大消减了文本向量的维数,提高了聚类效率.基于领域本体的概念层次关系,采用SOM算法实现文本的逐层聚类,以分层方式组织文档,方便用户由粗到精、由总体到局部地查阅文本集.通过无人机领域的Web文本聚类实验,验证了该方法的有效性.  相似文献   

3.
基于多文档集合特征的多文档文摘生成方法在选取最优词时利用人工进行特征降维,方法过于机械,同时在回溯词鄄文档矩阵进行文本相似度计算时,存在对稀疏矩阵无法计算的问题.本文对话题追踪结果进行多文档文摘研究,提出一种有效的多文档文摘语义空间降维方法.新方法在整个话题范围内构造语义空间词鄄文档矩阵,采用奇异值分解对原始词鄄文档矩阵进行特征降维,同时构造能充分包含原始文档词汇信息且维数低的转换矩阵F,利用它来回溯词鄄文档矩阵,完成低维空间下的词相似度计算,进而完成文本单元相似度计算以及文本单元聚类,最终生成多文档自动文摘.实验结果表明,该方法能够对语义空间词鄄文档矩阵进行完美降维,同时避免稀疏矩阵无法计算的问题,对最终生成的多文档文摘有着很好的效果.  相似文献   

4.
传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。  相似文献   

5.
检索结果聚类是提高检索性能的一种有效手段.其中,如何衡量文档间的相似性是影响聚类质量的关键因素.针对XML文档的内容和结构双重特性,提出了内容与结构语义相融合的扩展向量空间模型,并分析了影响相似性度量的各种特征,进而提出了内容与结构语义相融合的XML语义相似性度量方法.同时,针对IEEE数据集无法提供每篇文档的类别信息,本文从相关文档的分布情况引入了相关簇率和相关文档分布率的概念来进行聚类质量评价.数据集IEEE CS上的实验表明,与同类相似性度量方法和传统方法相比,本文所提方法具有可行性和更好的聚类效果.  相似文献   

6.
针对传统文本分类算法在向量空间模型表示下存在向量高维、稀疏以及忽略特征语义相关性等缺陷所导致的分类效率低和精度不高的问题,以知网(HowNet)为知识库,构建语义概念向量模型SCVM(Semantic Concept Vector Model)表示文本,根据概念语义及上下文背景对同义词进行归并,对多义词进行排歧,提出基于概念簇的文本分类算法TCABCC (Text Classification Algorithm Based on the Concept of Clusters),通过改进传统KNN,用概念簇表示各个类别训练样本,使相似度的计算基于文本概念向量和类别概念簇。实验结果表明,该算法构造的分类器在效率和性能上均比传统KNN有较大的提高。  相似文献   

7.
本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高.  相似文献   

8.
介绍一个建立在向量空间模型上的文档分类系统。该系统着重解决向量维数压缩和中文专有词汇获取等问题。在特征项的选取上,我们并不采用文档中出现的全部词汇,而是利用语料库统计信息生成的关键词汇。实验结果表明,较之以采用全体词汇作为特征项进行分类的方法,本方法能有效地进行向量维数压缩,同时也提高了分类准确率。  相似文献   

9.
&;nbps;&;nbps;文本分类是目前国内外理论研究的热点领域,在信息检索、数据挖掘、垃圾邮件过滤、数字图书馆等领域具有广泛的应用。随着新一代语义Web的出现和人们对网络信息资源语义分类的需求,基于关键词加权的向量空间模型表征文本的分类方法逐渐呈现出一些问题,如忽略词间重要语义信息,不能解决同义词、多义词、词间上下位关系等;在对海量文献分类时,向量空间维度过高,出现内存不足,分类速度慢等。这些问题的出现为文本分类领域的研究带来新的挑战和研究视角,促进了文本分类新技术和新方法的不断涌现。
&;nbps;&;nbps;在这样的大背景下,针对文本分类方法在发展过程中出现的问题,围绕“本体及其在文本分类中的应用”和“海量网络学术文献自动分类”两个方面展开深入的研究,笔者有幸申请到国家社会科学基金一般项目“海量网络学术文献自动分类研究(项目编号:10BTQ047)”和教育部人文社会科学一般项目“基于本体集成的文本分类关键技术研究(项目编号:09YJA870019)”。  相似文献   

10.
文本分类是网络主题舆情分析中的关键技术,传统Web文本分类将文本关键词的相似度作为分类依据,丢失许多重要的语义信息,导致分类结果不够准确且计算量大.本文提出一种基于语义相似度的Web文本分类方法,利用特定的领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量,给出Web文本相似度的计算公式并实现基于语义相似度的KNN算法.结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少计算量并提高了分类精确度.  相似文献   

11.
Text document clustering provides an effective and intuitive navigation mechanism to organize a large amount of retrieval results by grouping documents in a small number of meaningful classes. Many well-known methods of text clustering make use of a long list of words as vector space which is often unsatisfactory for a couple of reasons: first, it keeps the dimensionality of the data very high, and second, it ignores important relationships between terms like synonyms or antonyms. Our unsupervised method solves both problems by using ANNIE and WordNet lexical categories and WordNet ontology in order to create a well structured document vector space whose low dimensionality allows common clustering algorithms to perform well. For the clustering step we have chosen the bisecting k-means and the Multipole tree, a modified version of the Antipole tree data structure for, respectively, their accuracy and speed.
Diego Reforgiato RecuperoEmail:
  相似文献   

12.
基于概念和语义层次的领域本体评价研究   总被引:1,自引:0,他引:1  
领域本体评价是本体论和语义网研究中的重要内容.本文提出了一种基于编辑距离对领域本体中概念之间的相似度进行计算的方法.此外,通过比较给定的领域本体和"黄金标准"之间在概念的实例的安排以及概念本身的等级安排上具有的相似性,可以在语义角度对二者做出相似性判断.本文利用一个已有的军用飞机领域的本体和<中国分类主题词表>进行比较计算.实验结果表明,该方法能较为准确地计算出两个本体的概念集的相似性,也能较好地衡量本体之间的语义关系,从而实现对领域本体的有效评价.  相似文献   

13.
归纳总结语义分析方法的发展概况,在本体构建中,提炼出一种语义分析方法,并对该方法的要素进行详细分析,结合产品分类开展本体构建的语义分析方法实验,着重于解决现有很多本体中语义表达过于简单的问题,建立大量的概念间关系、属性间关系、概念与属性间关系、实例间关系、概念与实例间关系,并进行形式化逻辑表达。  相似文献   

14.
三种文档语义倾向性识别方法的分析与比较*   总被引:2,自引:0,他引:2  
研究并实现三种文档倾向性识别的方法:基于情感词加权的方法、基于语义模式分析的方法和基于文本分类的方法。第一种方法利用特征词汇的情感语义倾向性。第二种方法对自然语言的句法结构进行简化,以获取合适粒度的倾向性语义模式。第三种方法则直接利用传统的基于文本分类的方法。通过在网络舆情分析系统中的具体实现,探讨这三种方法各自的不足和优势。  相似文献   

15.
[目的/意义]以公共图书馆、博物馆、美术馆和群众艺术馆数字资源整合为例,探讨通过赋予受控词汇"身份",提高资源检索的效率的方法。[方法/过程]定义多维坐标系统空间面、主题坐标轴和坐标点;通过为词汇概念赋予标识符,建立概念与词汇的关联,按一定规则为词汇赋予"身份",以概念优选机制、关联数据技术与索引表构建作为其辅助。此外,通过解析用户检索词语义,构建语义标识符,并对概念标识符进行拆分、组合,利用测算标识符点距的方法建立语义标识符与概念标识符之间的映射关系,实现检索维度优选。[结果/结论]多维坐标系统的坐标关系模型以"面-线-点"的坐标关系处理层次为基础,以"概念定位-词汇定位-资源定位"的检索层次为依据,并结合优选、关联与索引,拆分、组合与点距等相关实现机制,通过量化方法来处理词汇关系,能够提高机器对词汇的理解。  相似文献   

16.
[目的/意义]技术创新服务平台的建设中需要智能搜索引擎技术,智能搜索引擎技术的内涵或者说重点在于自动语义标注.技术创新服务平台上对搜索引擎的要求,与大众的搜索引擎的需求还是不同的,处理的对象主要是专业领域的文本,通过语义标注技术,能快速对企业文档进行语义化和结构化组织,从而为企业提供精准的知识服务.[方法/过程]针对专业领域语义标注的相关问题,在进行深入研究与探讨的基础上,将语义标注理解为是对一组文档资源进行组织语义化的过程,提出利用结构化语义概念资源或集合对数字化文本进行自动标引的方法,并根据概念实体出现频次、位置和关系等因素,自动抽取相关语义概念集合,实现相关文本的语义内容的自动标注.[结果/结论]评价语义标注相关实验的效果,展示语义标注的具体应用场景.同时,体现领域本体与语义标注语料不断更新、进化、形成互动的过程,旨在为专业领域的语义自动标注及智能搜索引擎的构建提供有益的参考.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号