首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 296 毫秒
1.
SVM算法只使用已归类的数据训练分类器,而EM算法用少量已归类数据,结合大量的未归类数据来训练分类器,在减少已归类数据的同时保证了分类器的精度。本文基于EM算法的思想,根据SVM文本分类模型,提出一种新的迭代SVM文本分类算法。实验结果表明,迭代SVM算法分类精度高于传统的SVM文本分类算法,具有较好的性能。  相似文献   

2.
中文文本分类是对中文按类别来进行分类。基于交叉覆盖算法的文本分类运用交叉覆盖算法作为分类器,能够实现对中文文本的分类。通过它和SVM(Support Vector Machine)分类器的对比实验,说明了交叉覆盖算法,相比于SVM分类器对中文文本分类效果更好。  相似文献   

3.
周靖 《茂名学院学报》2011,21(4):56-58,66
在文本分类过程中,为解决传统支持向量机(SVM)多类分类的不可分区域问题及提高分类性能,提出了一种改进的偏二叉树多类SVM算法。算法依据根据样本的分布情况计算训练集文本特征参数的信息熵,并将熵值结合欧式距离公式以确定各类文本间的相似性测度;以相似性测度作为偏二叉树结构的分类走向,对训练集进行学习,构建各个二类子SVM分类器。实验结果表明,该算法具有较高的分类性能,能更好地解决实际文本分类过程中的问题。  相似文献   

4.
在介绍SVM和KNN分类算法的基础上,提出了一种新的、较简单的,但更为合理的基于表模型的文档表示方法,阐述了一种基于表模型的分类算法——TableKNN算法。通过实验比较TableKNN算法与传统KNN算法应用于文本分类的效果,证实了TableKNN算法在处理文本分类问题上的优越性。  相似文献   

5.
文章考虑特征项的概率信息又结合文本的语义信息来计算特征项的权值,提出一种新的用于文本分类的特征项权值计算方法(FreSem),采用支持向量机(SVM)分类器进行实验,与传统的频率、TFIDF两种方法相比,能有效地提高文本分类的正确率。  相似文献   

6.
K-Means是一种简单、高效的聚类方法,能快速将网页文本分类。SVM在解决小样本、非线性及高维模式识别中有许多独特优势,能够通过低样本获取全局最优解。因此,将K Means和SVM结合,以达到自动识别流行中文钓鱼网站并对其进行分类的目的。验证了两种方法结合应用的有效性。  相似文献   

7.
文本自动分类是一种有效的组织信息和管理信息的工具.传统分类方法一般在分类效果和运行效率两者上不可兼得.通过综合Rocchio和KNN两种分类方法的优点,设计了一种基于多代表点的文本分类方法,该方法通过对各类挖掘出多个有效的代表点(真实或虚拟的),再使用基于这些代表点的Rocchio和KNN方法进行分类.实验表明,该方法以较少的训练时间达到令人满意的分类效果,并且能很好解决不平衡类问题,实验结果显示该方法能达到与SVM相当的分类效果.  相似文献   

8.
针对短文本信息篇幅短、信息量少、特征稀疏的特点,提出一种基于LDA(Laten Dirichlet Allocation)主题模型特征扩展的短文本分类方法。该方法利用LDA模型得到文档的主题分布,然后将对应主题下的词扩充到原来短文本的特征中,作为新的部分特征词,最后利用SVM分类方法进行分类。实验结果表明,相比于传统的基于VSM模型的分类方法,基于LDA特征扩展的短文本分类方法克服了特征稀疏的问题,在各个类别上的查准率、查全率和F1值都有所提高,充分验证了该方法对短文本分类的可行性。  相似文献   

9.
词向量在自然语言处理中起着重要作用,近年来受到越来越多学者关注。然而,在词向量研究中,基于Word2vec词向量的应用研究居多,对于GloVe词向量的应用研究却很少。因此,将GloVe词向量模型与支持向量机(SVM)相结合,利用GloVe词向量模型进行特征提取与选择,利用SVM进行分类,并与Word2vec词向量结合SVM作实验对比。实验结果表明,GloVe词向量特征提取与SVM分类相结合的方法能够取得较好的准确率、召回率及F值,因此在新闻文本分类中具有一定应用价值。  相似文献   

10.
利用错误驱动法、支持向量机法和隐马尔可模型三种方法对汉语文本进行名词短语识别,对实验进行比较分析,结果表明SVM与HMM的识别效果总体上要好于错误驱动法,HMM法在封闭测试中优势明显.研究表明错误驱动法应用于解决从语料库中学习转换规则的传统问题;SVM方法适用于解决两类别的分类问题;而HMM方法侧重应用在与线性序列相关的现象上.  相似文献   

11.
SVM(Support Vector Machine,支持向量机)是由Vapnik等人提出的一种新的机器学习方法。以结构误差理论、条件二次优化理论与核空间理论作为理论基础,能够较地的解决机器学习的问题,如模型选择、过学习、非线性问题和灾难维数等,很适合应用在文本分类领域。针对文本分类技术的新问题,研究了已有的主动学习方法并对其进行改进,提出了一种新的主动学习算法,很好地解决了小规模标注样本集的分类问题。该方法尤其在难以获得大量类标签或者标注样本耗费较大的领域,更能显示出它的优越性,适合日新月异的互联网的应用。  相似文献   

12.
This paper proposes a learning-based method for text detection and text segmentation in natural scene images. First, the input image is decomposed into multiple connected-components (CCs) by Niblack clustering algorithm. Then all the CCs including text CCs and non-text CCs are verified on their text features by a 2-stage classification module, where most non-text CCs are discarded by an attentional cascade classifier and remaining CCs are further verified by an SVM. All the accepted CCs are output to result in text only binary image. Experiments with many images in different scenes showed satisfactory performance of our proposed method.  相似文献   

13.
支持向量机(Support Vector Machine,SVM)在解决小样本、非线性及高维模式识别中具有优势,但核函数的选取没有定论,且其参数对SVM模型的性能起重要作用。针对这些问题,文章建立了基于SVM的分类模型,并通过UCI数据集验证了径向基核函数(Radial Basis Function,RBF)较其他核函数的有效性,其中核参数的选取采用改进的网格搜索法进行寻优。分类实验结果表明,选择RBF核函数的分类准确度较其他核函数提高了2.5%到35%。  相似文献   

14.
对文本分类技术进行研究,首先介绍文档频数特征词评价方法;然后提出一种词分布均衡度评价的特征词选取方法,最后分析基于词分布均衡度评价的支持向量机文本分类算法,并实验证明其优越性.  相似文献   

15.
在基于内容的垃圾邮件过滤方法中,特征表达和分类算法十分重要,本文应用n-gram方法进行特征表达,以支持向量机(SVM)作为分类算法,并选取传统的人工神经网络(ANN)作为分类器作为对比,并采用不同大小的训练集和测试集来测试SVM及ANN的分类效果,观察训练集和测试集大小对于分类效果的影响。  相似文献   

16.
INTRODUCTION Support Vector Machine (SVM) is a relativelynew soft computing method based on statisticallearning theory presented by Vapnik (1995). In SVM,original input space is mapped into a high dimen-sional dot product space called feature space in whichthe optimal hyperplane is determined to maximize thegeneralization ability of the classifier. The optimalhyperplane is found by exploiting a branch ofmathematics, called optimization theory, and re-specting the insights provided by …  相似文献   

17.
文本分类是自然语言处理中的一项重要基础任务,指对文本集按照一定的分类体系或标准进行自动分类标记。目前网络文化监督力度不够、不当言论不受限制,导致垃圾评论影响用户体验。因此提出一种基于注意力机制的CLSTM混合神经网络模型,该模型可以快速有效地区分正常评论与垃圾评论。将传统机器学习SVM模型和深度学习LSTM模型进行对比实验,结果发现,混合模型可在时间复杂度上选择最短时间,同时引入相当少的噪声,最大化地提取上下文信息,大幅提高评论短文本分类效率。对比单模型分类结果,基于注意力机制的CLSTM混合神经网络模型在准确率和召回率上均有提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号