共查询到17条相似文献,搜索用时 578 毫秒
1.
基于潜在语义分析和改进的HS-SVM的文本分类模型研究 总被引:1,自引:0,他引:1
2.
Web文本分类技术研究现状述评 总被引:1,自引:0,他引:1
本文在分析国内外Web文本分类方法研究现状的基础上,对新近出现的基于群的分类方法、基于模糊—粗糙集的文本分类模型、多分类器融合的方法、基于RBF网络的文本分类模型、潜在语义分类模型等新方法,以及K—近邻算法和支持向量机的新发展等进行了深入探讨;并对Web文本分类过程的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法进行了分析;最后总结了Web文本分类技术存在着新分类方法不断涌现、传统分类方法的进一步发展、文本、语音和图像分类技术的融合等几种发展趋势,以及存在着分词问题、目前还没有发现"最佳"的特征选择等研究的不足之处。 相似文献
3.
Web自动文本分类技术研究综述 总被引:1,自引:0,他引:1
Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.本文首先分析了国内外Web自动文本分类方法的研究现状,接着对新近出现的多分类器融合的方法、基于群的分类方法、基于RBF网络的文本分类模型、基于模糊-粗糙集的文本分类模型、潜在语义分类模型等新方法,以及K-近邻算法和支持向量机的新发展等进行了深入探讨;并对Web自动文本分类过程中的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法等进行了分析;最后总结了当前Web自动文本分类技术存在的问题及其发展趋势. 相似文献
4.
5.
针对传统文本分类算法在向量空间模型表示下存在向量高维、稀疏以及忽略特征语义相关性等缺陷所导致的分类效率低和精度不高的问题,以知网(HowNet)为知识库,构建语义概念向量模型SCVM(Semantic Concept Vector Model)表示文本,根据概念语义及上下文背景对同义词进行归并,对多义词进行排歧,提出基于概念簇的文本分类算法TCABCC (Text Classification Algorithm Based on the Concept of Clusters),通过改进传统KNN,用概念簇表示各个类别训练样本,使相似度的计算基于文本概念向量和类别概念簇。实验结果表明,该算法构造的分类器在效率和性能上均比传统KNN有较大的提高。 相似文献
6.
提出了一种基于预抽取支持向量机及模糊循环迭代算法的改进的支持向量机(Support Vector Machines,SVM)的两类文本分类方法, 与传统的SVM相比, 该方法具有高得多的计算效率。文中给出了具体算法并将其用于文本分类中,实验表明了本算法用于文本分类的有效性及其高效率。 相似文献
7.
肿瘤基因微阵列数据对于肿瘤诊断具有重要意义,由于基因数据具有数据样本少、基因维数高的特点,传统的分类器方法在样本数量不足或远远小于属性维数的情况下,易于陷入"过学习",分类精度较低。本文采用T-test选取获选基因,选取分布差异较大的基因,剔除无关基因,提高实验的整体效率;将支持向量机SVM的惩罚因子加入粒子群算法PSO的粒子编码,PSO同时对候选基因组和SVM参数进行搜索,减少SVM参数的不确定性,以此得到更精确的基因标签,确定好的分类因素。文章最后验证了算法的有效性。 相似文献
8.
基于机器学习的自动文本分类模型研究 总被引:2,自引:0,他引:2
基于机器学习的方法是自动文本分类中非常重要的一大类方法。本文先给出了形式化的定义,提出了自动文本分类的流程模型,然后选取了支持向量机(Support Vector Machine,SVM)算法作为一个典型例子进行分析,最后作者通过一个中文文本分类实验评价了该算法的效果。 相似文献
9.
本文提出一种面向聚类主题的文本特征表示方法,即以聚类的主题概念来刻画文本的特征向量,将文本描述提升至语义层次.首先,通过聚类,形成一组以向量形式表达的隐含主题概念,再将基于词条空间的文本特征向量投影至这组主题概念,以隐含的主题概念来描述文本.实验分析表明,建立在概念空间之上的文本向量实质上是文本矢量与主题概念的关联度,能够突出表现文本内容的主题特征,更好地反映文本的语义内容,从而有效提高模型在文本检索与分类等领域的应用性能.而基于聚类形成的概念空间的维数由于可主观调整,又能有效地约减概念空间的维数,提高模型的应用实效. 相似文献
10.
基于NMF的用户模板构造方法 总被引:2,自引:0,他引:2
文本过滤是网络安全领域的一个重要研究课题。基于内容的文本过滤关键在于建立语义层次上的用户模板。本文提出一种基于非负矩阵分解 (Non negativeMatrixFactorization ,NMF)的用户模板构造方法。该方法应用NMF算法分解项 文本矩阵来获取项之间的相关性。在此基础上 ,引入语义向量和权重向量的概念 ,并通过定义语义向量的类别区分度来提取用户模板。实际表明 ,与基于奇异值分解的潜在语义索引方法相比 ,该方法不仅较大地提高了过滤精度 ,而且具有计算速度快、占用存储空间较少的优点 相似文献
11.
基于概念向量空间的文档语义分类模型研究 总被引:1,自引:0,他引:1
12.
通常用于评论性文本极性挖掘的方法是采用有监督的学习算法完成的,但有监督的学习算法需要大量人工标注的训练集,而且其在处理文本集时还会面临维数灾难、稀疏向量、高时空复杂度、低召回率和精确率等问题而无法用于海量的文本极性分类任务。经典的K-means均值聚类算法是聚类分析中使用最为广泛的算法之一,其具有诸多的优良特性和不足。针对上述情况,本文将语义引入经典K-means均值聚类算法中,构造了专门针对中文评论文本极性判断的极性词语义词典,提出了一种基于语义准则函数的K-means均值聚类算法。这项研究是运用基于语义的聚类方法对汉语主观性文本处理的一次探索。实验结果显示总平均召回率达到了80.70%,总平均精确率达到了67.75%,说明该算法是可行和有效的。 相似文献
13.
一种混合文本分类方法研究 总被引:1,自引:0,他引:1
文本自动分类是信息检索领域的一个重要研究方向。一些标准的机器学习算法像支持向量机已经成功地运用到了这一领域。不幸的是高维的输入向量严重的影响了分类速度,而支持向量机核函数参数的确定影响到分类的精度。为了提高分类精度和分类速度,本文提出了一种混合分类算法,首先用粗糙集理论对向量进行约简,然后采用基因算法对支持向量机的核函数参数进行优化。实验证明我们提出的算法是有效的。 相似文献
14.
为了解决基于向量空间模型构建短文本分类器时造成的文本结构信息的缺失以及大量样本存在的标注瓶颈问题,提出一种基于图结构的半监督学习分类方法,这种方法既能保留短文本的结构语义关系,又能实现未标注样本的充分利用,提高分类器的性能。通过引入半监督学习的思想,将数量规模较大的未标注样本与少量已标注样本相结合进行基于图结构的自训练学习,不断迭代实现训练样本集的扩充,从而构建最终短文本分类器。经对比实验证明,这种方法能够获得较好的分类效果。 相似文献
15.
支持向量机在文本自动分类中的应用研究 总被引:3,自引:0,他引:3
针对数据挖掘中的文本自动分类问题,提出了一种基于支持向量机的分类方法。构造了可用于多个模式类识别的多层级连式SVM模型,该模型可完成对多个模式的分类识别。根据训练样本的分类体系完成对模型的构造之后,即可应用于实际文档的自动分类。文中给出了该模型的构造及应用的方法,用两种核函数作为内积回旋方案,以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。 相似文献
16.
基于SUMO和WordNet本体集成的文本分类模型研究 总被引:1,自引:0,他引:1
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和WordNet本体集成的文本分类模型,该模型利用WordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。 相似文献