共查询到20条相似文献,搜索用时 15 毫秒
1.
对基于中文的Web文本分类技术进行了研究,介绍了web文本分类的基本过程和Web文本预处理及文本特征选取的方法,重点介绍了一种常用的基于内容的分类算法KNN。最后通过实验测试了使用KNN算法的中文Web文本分类技术的效果。 相似文献
2.
3.
4.
在介绍SVM和KNN分类算法的基础上,提出了一种新的、较简单的,但更为合理的基于表模型的文档表示方法,阐述了一种基于表模型的分类算法——TableKNN算法。通过实验比较TableKNN算法与传统KNN算法应用于文本分类的效果,证实了TableKNN算法在处理文本分类问题上的优越性。 相似文献
5.
6.
7.
《兰州石化职业技术学院学报》2021,(3)
传统的K最近邻算法(KNN)是机器学习领域中思想简单、易于学习、对低维数据处理效率较高的分类方法之一,但是在高维数据的分类中效率不高、性能会降低。针对传统KNN算法在处理多维数据集上的不足,提出了一种新的KNN改进算法:将线性回归方法引入该算法中,利用属性间的决定系数选择合适的属性集合,降低高维数据集的维数,并采用卡方距离作为KNN算法的距离度量函数,克服欧式距离不能体现特征向量之间相对关系的不足。实验结果分析表明,在标准数据集的测试中,基于线性回归方法的改进KNN算法达到了较高的分类准确度,相对于传统KNN算法在属性识别度上有了一定的提高。 相似文献
8.
9.
《河南职业技术师范学院学报(职业教育版)》2018,(5)
针对传统的特征选择方法在非平衡数据集中分类效果不理想的问题,提出了一种适合非平衡数据分类的改进特征选择方法.该方法将集中度和分散度相结合,同时考虑到在文本长短不一时词频对文本分类的作用,得到一种新的词频归一化方法,实现了对传统特征提取方法的改进.另一方面,将三支决策思想引入到朴素贝叶斯算法,得到了NB-三支决策分类算法,并将该算法应用到非平衡数据集的分类.通过两组实验对比结果表明:改进特征选择方法较CHI和IG方法,处理非平衡度高的数据集分类效果较好;选取相同的特征选择方法和数据集,NB-三支分类器比NB-分类器的分类效果好.选用本文提出的改进特征选择方法和NB-三支分类器,在处理非平衡度高且文本长短不一的数据集时,分类效果有一定提升. 相似文献
10.
陈可华 《赤峰学院学报(自然科学版)》2011,27(4):34-36
文本自动分类是一种有效的组织信息和管理信息的工具.传统分类方法一般在分类效果和运行效率两者上不可兼得.通过综合Rocchio和KNN两种分类方法的优点,设计了一种基于多代表点的文本分类方法,该方法通过对各类挖掘出多个有效的代表点(真实或虚拟的),再使用基于这些代表点的Rocchio和KNN方法进行分类.实验表明,该方法以较少的训练时间达到令人满意的分类效果,并且能很好解决不平衡类问题,实验结果显示该方法能达到与SVM相当的分类效果. 相似文献
11.
12.
李爽 《河南职业技术师范学院学报(职业教育版)》2018,(4)
图像特征提取方法以及分类器的选择是影响图像分类精确度的关键因素.传统算法利用单一的图像特征和浅层结构对图像进行分类,算法实现简单但结果精确度不高.针对这一情况,提出基于多特征融合和深度学习的图像分类算法.算法利用颜色矩、LBP和梯度直方图等算法提取图像的颜色、纹理以及形状特征,继而通过融合算法将这些不同属性的特征进行融合,作为深度学习网络的输入层.实验结果表明,相对于单特征浅层分类,算法在保证时效性的同时,图像分类精确度得到了提高,分类效果更加可靠. 相似文献
13.
针对目前国内外学者对微博情感只作二分类研究,仅仅从正面和负面研究微博情感不足的问题,选取NLPCC2013-2014年多情感的微博数据集,重点研究常用的3种机器学习算法、3种特征选择以及特征权重方法对中文微博情感多分类的影响。实验表明:不管选择哪种特征权重,使用SVM的微博文本分类准确率都最高,KNN的准确率最低;不同特征权重下,信息增益作为特征选择的方法时,3个算法各自准确率都是最高的;当信息增益为特征选择,TF-IDF为特征权重时,支持向量机的文本分类准确率最高。由于微博简短、口语化,词袋模型忽视了词与词间的联系,导致微博情感分类准确率不高。 相似文献
14.
董露露 《合肥师范学院学报》2017,35(6)
特征降维是文本分类的关键步骤之一.传统互信息特征选择方法只关注了文档频,未考虑词频因素,并且忽视了负相关特征对文本分类的重要作用,导致其在不平衡语料集上的分类效果较差.针对传统互信息方法存在的不足,提出一种改进的互信息特征选择方法,综合考虑词频因素及正、负相关特征对文本分类的影响,引入平均词频率和绝对值最大因子,克服传统互信息倾向于选择低频词、忽视负相关特征的缺陷.在不平衡语料集上的实验结果表明,改进的互信息能够有效提高文本分类性能. 相似文献
15.
中文专利文献自动分类 总被引:1,自引:0,他引:1
采用KNN算法实现了一种中文专利文献自动分类系统。针对专利文献数据规模过大,分类效率低下的问题,采用修剪样本技术删除冗余样本,提高了分类器的效率。为解决修剪样本导致干扰文献积累对KNN分类性能下降的影响,系统使用信息增益对专利文献进行特征词选择,削弱了干扰文献对KNN分类的作用。实验证明,采用修剪样本技术和基于信息增益的特征词选择能有效缩小训练集规模,提高KNN分类准确率。 相似文献
16.
针对现有乐器分类研究中存在的使用特征量过多、分类准确率有待提高等问题,提出了一种特征量少、准确度高的乐器分类方法。基于Relief算法的主成分特征提取方法,计算出各特征量的权重,设计3层的神经网络分类器。根据所提算法和分类器,使用8项音频特征与传统的24项MFCC特征,分别对中西方9种乐器进行了分类实验,并分别使用权重最高的4、5、6项特征进行分类实验。结果表明,所提出的音频特征相比于传统MFCC特征对乐器分类的平均准确率更高,达到94.84%,且特征量更少,说明基于Relief算法的主成分特征提取方法能有效减小低相关性特征对分类准确率的影响。 相似文献
17.
18.
针对文本分类算法的选择问题,使用二十新闻组数据集在开源的数据挖掘软件Weka上进行了仿真实验。通过实验结果综合评价了朴素贝叶斯算法、IB1算法和ZeroR算法的性能。实验结果表明在三种算法中朴素贝叶斯算法的准确率最高,ZeroR算法的运算速度最快。研究表明文本分类的效率受所选算法的影响较大,合适的算法可以显著地提高文本分类的准确率。 相似文献
19.
韩淑芹 《西安文理学院学报》2021,(1):42-45
提出了一种基于分布式K-means算法的图像特征提取算法,详细介绍了该图像特征提取算法的基本框架,提出了图像预处理、特征提取以及图像分类的具体方法.并通过图像分类实验验证了白化操作的必要性.经实验研究发现,白化操作是提升图像分类精确度水平的重要手段. 相似文献
20.
针对特定领域的智能答疑系统中问句分类,利用加权LSA计算问句之间的语义相似度和KNN算法构造分类器进行问句分类,并对KNN分类算法及改进的KNN分类算法进行实验比较。结果表明加权的KNN分类器分类效果最好,达到了90.8%的精确率。 相似文献