首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
对基于中文的Web文本分类技术进行了研究,介绍了web文本分类的基本过程和Web文本预处理及文本特征选取的方法,重点介绍了一种常用的基于内容的分类算法KNN。最后通过实验测试了使用KNN算法的中文Web文本分类技术的效果。  相似文献   

2.
KNN算法是文本分类技术中比较常用的算法。但是,当训练集容量较大时,KNN算法分类的效率大大降低。在对中文短信文本的分类时,结合中文短信文本的特点,给出了先由LAS算法进行降维,然后利用KNN算法进行分类的算法。实验结果表明,该算法提高了中文短信文本的分类质量和分类速度。  相似文献   

3.
根据文本信息在聚类过程中的特点构建了一种基于K medoids的文档聚类方法,并结合文本特征提取KNN算法对训练文本进行测试,该方法首先利用K medoids在聚类过程中实现简单、收敛速度快的特性,再利用KNN算法在文档特征提取过程中简单、高效的特点,对训练进行聚类划分。实验结果表明,利用该方法在对文档进行聚类时,F1值、耗时及分割数等方面与KNN及CLKNN算法相比都有较大提高。  相似文献   

4.
在介绍SVM和KNN分类算法的基础上,提出了一种新的、较简单的,但更为合理的基于表模型的文档表示方法,阐述了一种基于表模型的分类算法——TableKNN算法。通过实验比较TableKNN算法与传统KNN算法应用于文本分类的效果,证实了TableKNN算法在处理文本分类问题上的优越性。  相似文献   

5.
特征提取是文本挖掘、信息检索、自然语言处理(NLP)、文本情感分析、网络舆情分析等领域的研究热点。特征提取作为文本挖掘系统的主要因素,文本特征提取性能是文本分类结果的重要性度量。从两方面对特征选择算法进行总结,分析国内外对常用特征提取算法的改进和创新,最后针对影响特征提取的因素,指出在实际应用中应考虑的问题。  相似文献   

6.
提出了一种基于投影寻踪改进KNN中文文本分类方法,与现有的中文文本分类算法相比,该方法具有较高的计算效率。给出了具体实现过程并将其用于文本分类中,实验证明了该算法用于文本分类的有效性及其高效率。  相似文献   

7.
传统的K最近邻算法(KNN)是机器学习领域中思想简单、易于学习、对低维数据处理效率较高的分类方法之一,但是在高维数据的分类中效率不高、性能会降低。针对传统KNN算法在处理多维数据集上的不足,提出了一种新的KNN改进算法:将线性回归方法引入该算法中,利用属性间的决定系数选择合适的属性集合,降低高维数据集的维数,并采用卡方距离作为KNN算法的距离度量函数,克服欧式距离不能体现特征向量之间相对关系的不足。实验结果分析表明,在标准数据集的测试中,基于线性回归方法的改进KNN算法达到了较高的分类准确度,相对于传统KNN算法在属性识别度上有了一定的提高。  相似文献   

8.
《宜宾学院学报》2017,(12):61-65
提出一种基于KNN算法进行主题分类的方法,研究了主题网络爬虫的系统结构和所涉及的关键技术,包括URL管理器、页面下载器、页面解析器、主题识别模块以及内容存储模块,重点介绍了基于KNN的分类器的主题相关度算法.使用IKAnalyzer实现网页内容的中文分词,通过TF-IDF算法实现网页内容的特征提取,并利用KNN分类器计算网页的主题相关度.  相似文献   

9.
针对传统的特征选择方法在非平衡数据集中分类效果不理想的问题,提出了一种适合非平衡数据分类的改进特征选择方法.该方法将集中度和分散度相结合,同时考虑到在文本长短不一时词频对文本分类的作用,得到一种新的词频归一化方法,实现了对传统特征提取方法的改进.另一方面,将三支决策思想引入到朴素贝叶斯算法,得到了NB-三支决策分类算法,并将该算法应用到非平衡数据集的分类.通过两组实验对比结果表明:改进特征选择方法较CHI和IG方法,处理非平衡度高的数据集分类效果较好;选取相同的特征选择方法和数据集,NB-三支分类器比NB-分类器的分类效果好.选用本文提出的改进特征选择方法和NB-三支分类器,在处理非平衡度高且文本长短不一的数据集时,分类效果有一定提升.  相似文献   

10.
文本自动分类是一种有效的组织信息和管理信息的工具.传统分类方法一般在分类效果和运行效率两者上不可兼得.通过综合Rocchio和KNN两种分类方法的优点,设计了一种基于多代表点的文本分类方法,该方法通过对各类挖掘出多个有效的代表点(真实或虚拟的),再使用基于这些代表点的Rocchio和KNN方法进行分类.实验表明,该方法以较少的训练时间达到令人满意的分类效果,并且能很好解决不平衡类问题,实验结果显示该方法能达到与SVM相当的分类效果.  相似文献   

11.
密码创建规则中包含多种多样的个人身份信息组合方式,不仅文法结构规范特殊,而且语义内容丰富.对于文本处理方法,传统的基于概率上下无关文法模型会导致文本特征表示稀疏、语义信息或丢失的问题,因此提出利用深度学习DNN算法.通过对个人身份信息数据进行特征提取,构建语义分类表示的深度神经网络,并为该模型设计训练方法来进行广泛的训练.最后通过实验表明深度学习DNN算法能够提高个人身份信息语义识别的性能,在一定程度上优于已有的一些密码攻击方法.  相似文献   

12.
图像特征提取方法以及分类器的选择是影响图像分类精确度的关键因素.传统算法利用单一的图像特征和浅层结构对图像进行分类,算法实现简单但结果精确度不高.针对这一情况,提出基于多特征融合和深度学习的图像分类算法.算法利用颜色矩、LBP和梯度直方图等算法提取图像的颜色、纹理以及形状特征,继而通过融合算法将这些不同属性的特征进行融合,作为深度学习网络的输入层.实验结果表明,相对于单特征浅层分类,算法在保证时效性的同时,图像分类精确度得到了提高,分类效果更加可靠.  相似文献   

13.
针对目前国内外学者对微博情感只作二分类研究,仅仅从正面和负面研究微博情感不足的问题,选取NLPCC2013-2014年多情感的微博数据集,重点研究常用的3种机器学习算法、3种特征选择以及特征权重方法对中文微博情感多分类的影响。实验表明:不管选择哪种特征权重,使用SVM的微博文本分类准确率都最高,KNN的准确率最低;不同特征权重下,信息增益作为特征选择的方法时,3个算法各自准确率都是最高的;当信息增益为特征选择,TF-IDF为特征权重时,支持向量机的文本分类准确率最高。由于微博简短、口语化,词袋模型忽视了词与词间的联系,导致微博情感分类准确率不高。  相似文献   

14.
特征降维是文本分类的关键步骤之一.传统互信息特征选择方法只关注了文档频,未考虑词频因素,并且忽视了负相关特征对文本分类的重要作用,导致其在不平衡语料集上的分类效果较差.针对传统互信息方法存在的不足,提出一种改进的互信息特征选择方法,综合考虑词频因素及正、负相关特征对文本分类的影响,引入平均词频率和绝对值最大因子,克服传统互信息倾向于选择低频词、忽视负相关特征的缺陷.在不平衡语料集上的实验结果表明,改进的互信息能够有效提高文本分类性能.  相似文献   

15.
中文专利文献自动分类   总被引:1,自引:0,他引:1  
采用KNN算法实现了一种中文专利文献自动分类系统。针对专利文献数据规模过大,分类效率低下的问题,采用修剪样本技术删除冗余样本,提高了分类器的效率。为解决修剪样本导致干扰文献积累对KNN分类性能下降的影响,系统使用信息增益对专利文献进行特征词选择,削弱了干扰文献对KNN分类的作用。实验证明,采用修剪样本技术和基于信息增益的特征词选择能有效缩小训练集规模,提高KNN分类准确率。  相似文献   

16.
针对现有乐器分类研究中存在的使用特征量过多、分类准确率有待提高等问题,提出了一种特征量少、准确度高的乐器分类方法。基于Relief算法的主成分特征提取方法,计算出各特征量的权重,设计3层的神经网络分类器。根据所提算法和分类器,使用8项音频特征与传统的24项MFCC特征,分别对中西方9种乐器进行了分类实验,并分别使用权重最高的4、5、6项特征进行分类实验。结果表明,所提出的音频特征相比于传统MFCC特征对乐器分类的平均准确率更高,达到94.84%,且特征量更少,说明基于Relief算法的主成分特征提取方法能有效减小低相关性特征对分类准确率的影响。  相似文献   

17.
机载LIDA点云数据中的回光强度信息可对地物进行精细分类。KNN算法和BP神经网络算法是目前比较热门的分类算法,在数据分类方面应用广泛,对这两种算法进行了分类比较研究。将回光强度信息作为训练样本,利用两种不同的方法进行分类。实验结果表明,BP神经网络在地物的精细分类以及边界线提取方面要优于KNN算法。  相似文献   

18.
针对文本分类算法的选择问题,使用二十新闻组数据集在开源的数据挖掘软件Weka上进行了仿真实验。通过实验结果综合评价了朴素贝叶斯算法、IB1算法和ZeroR算法的性能。实验结果表明在三种算法中朴素贝叶斯算法的准确率最高,ZeroR算法的运算速度最快。研究表明文本分类的效率受所选算法的影响较大,合适的算法可以显著地提高文本分类的准确率。  相似文献   

19.
提出了一种基于分布式K-means算法的图像特征提取算法,详细介绍了该图像特征提取算法的基本框架,提出了图像预处理、特征提取以及图像分类的具体方法.并通过图像分类实验验证了白化操作的必要性.经实验研究发现,白化操作是提升图像分类精确度水平的重要手段.  相似文献   

20.
针对特定领域的智能答疑系统中问句分类,利用加权LSA计算问句之间的语义相似度和KNN算法构造分类器进行问句分类,并对KNN分类算法及改进的KNN分类算法进行实验比较。结果表明加权的KNN分类器分类效果最好,达到了90.8%的精确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号