首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
KNN算法是文本分类技术中比较常用的算法。但是,当训练集容量较大时,KNN算法分类的效率大大降低。在对中文短信文本的分类时,结合中文短信文本的特点,给出了先由LAS算法进行降维,然后利用KNN算法进行分类的算法。实验结果表明,该算法提高了中文短信文本的分类质量和分类速度。  相似文献   

2.
有监督的文本分类方法的研究与应用已经日渐成熟。提出了一种算法,针对大规模数据集进行无监督的文本分类,类似于潜在语义索引(LSI)的思想。首先,构建了用来表述主题分布的混合模型,再通过线性规划的方法计算每个文本的混合系数,然后利用混合系数对文本进行分类。最后,在arXiv文本集中对该算法进行了实验,结果显示分类效果比较理想。  相似文献   

3.
本文提出了一种基于主题采集的Web文档自动分类算法,该算法对朴素贝叶斯分类模型进行了改进。利用该算法,我们实现了一个基于主题信息采集的网页分类系统。文中着重对该系统的页面解析、中文分词和文本分类模块进行了论述,并对改进后的贝叶斯分类方法进行了评估。实验结果表明,该算法对网页分类有较高的准确性。  相似文献   

4.
文本分类在自然语言分类中起着重要作用,将决策树ID3算法应用与文本分类,对数字图书馆的部分文本信息分类,提出一个基于ID3决策树的文本分类算法,取得了良好的实验结果。  相似文献   

5.
对基于中文的Web文本分类技术进行了研究,介绍了web文本分类的基本过程和Web文本预处理及文本特征选取的方法,重点介绍了一种常用的基于内容的分类算法KNN。最后通过实验测试了使用KNN算法的中文Web文本分类技术的效果。  相似文献   

6.
分析了基于支持向量机(SVM)的文本分类方法,在此基础上,提出一种由SVM和概率统计方法相结合的文本分类方法。详细介绍该方法的实现原理、算法描述和工作流程,并进行实验测试。  相似文献   

7.
周靖 《茂名学院学报》2011,21(4):56-58,66
在文本分类过程中,为解决传统支持向量机(SVM)多类分类的不可分区域问题及提高分类性能,提出了一种改进的偏二叉树多类SVM算法。算法依据根据样本的分布情况计算训练集文本特征参数的信息熵,并将熵值结合欧式距离公式以确定各类文本间的相似性测度;以相似性测度作为偏二叉树结构的分类走向,对训练集进行学习,构建各个二类子SVM分类器。实验结果表明,该算法具有较高的分类性能,能更好地解决实际文本分类过程中的问题。  相似文献   

8.
分类问题的覆盖算法为处理海量数据提供了一个十分有效的方法,已被广泛应用于文本分类问题中.主要通过覆盖算法、核覆盖算法和基于概率的覆盖算法等三种不同方法进行训练和学习,并根据给出的实验结果进行比较研究.实验结果表明了经优化后的概率模型在文本分类中提高了识别率和精确度.  相似文献   

9.
本文借助中文维基百科知识库,提出基于ESA算法的文本分类算法.并选取2015年3月5日在中文维基百科网站下载的主题文章,对其进行适当处理,将处理结果作为该算法使用的语义概念知识库.在复旦大学中文文本分类语料上显示的实验结果表明,该方法比纯粹的词袋模型方法效果要好.  相似文献   

10.
文本分类是文本数据挖掘领域的重要技术之一。从分类算法对文本语义信息的利用程度这一角度出发,将文本分类划分为基于词形的算法和基于语义的算法两类,对每类算法进行了描述,并对当今文本数据的多样性及文本分类算法改进的可选方向进行了研究。  相似文献   

11.
文本自动分类研究进展   总被引:1,自引:0,他引:1  
通过介绍文本分类的过程及其关键技术,讨论了文本表示、分类算法、分类器性能评价原理和方法,最后对文本分类今后的发展进行了展望。  相似文献   

12.
在介绍SVM和KNN分类算法的基础上,提出了一种新的、较简单的,但更为合理的基于表模型的文档表示方法,阐述了一种基于表模型的分类算法——TableKNN算法。通过实验比较TableKNN算法与传统KNN算法应用于文本分类的效果,证实了TableKNN算法在处理文本分类问题上的优越性。  相似文献   

13.
传统的文本分类算法存在:忽视训练集的相对固定特征与新文献主题不断交化之间的矛盾,类间没有层次关系从而导致分类不太准确、效率低等问题,对此设计并实现了一种增量式的半监督文本分类算法-IC-Rocchio算法,实验结果表明,该算法能有效地改进这两方面的问题.  相似文献   

14.
文本分类是情报检索的基础性工作,它的任务是在给定的分类体系下,根据分类的文本所描述的内容,来确定该文本所属的类别,从而提高信息检索的速度和准确度。本文从实用的角度出发,以具有确定分类标准的关键词分类为应用背景,模仿人工分类的思想,采用一种较简单的通过给主、次关键词分别赋予不同的权重进行文献分类的方法,构建了一个文本分类的实验系统,该系统简化了文本自动分类的繁杂技术,克服了人工分类的不足,可用于管理计算机科学专业的毕业生论文。实验表明,此系统得到了较高的分类准确率。  相似文献   

15.
针对传统的特征选择方法在非平衡数据集中分类效果不理想的问题,提出了一种适合非平衡数据分类的改进特征选择方法.该方法将集中度和分散度相结合,同时考虑到在文本长短不一时词频对文本分类的作用,得到一种新的词频归一化方法,实现了对传统特征提取方法的改进.另一方面,将三支决策思想引入到朴素贝叶斯算法,得到了NB-三支决策分类算法,并将该算法应用到非平衡数据集的分类.通过两组实验对比结果表明:改进特征选择方法较CHI和IG方法,处理非平衡度高的数据集分类效果较好;选取相同的特征选择方法和数据集,NB-三支分类器比NB-分类器的分类效果好.选用本文提出的改进特征选择方法和NB-三支分类器,在处理非平衡度高且文本长短不一的数据集时,分类效果有一定提升.  相似文献   

16.
通过介绍文本分类的过程及其关键技术,讨论了文本表示、分类算法、分类器性能评价原理和方法;最后,指出了当前文本分类过程中存在的问题,并对今后的发展进行了展望.  相似文献   

17.
文本分类是情报检索的基础性工作,它的任务是在给定的分类体系下,根据分类的文本所描述的内容,来确定该文本所属的类别,从而提高信息检索的速度和准确度.本文从实用的角度出发,以具有确定分类标准的关键词分类为应用背景,模仿人工分类的思想,采用一种较简单的通过给主、次关键词分别赋予不同的权重进行文献分类的方法,构建了一个文本分类的实验系统.该系统简化了文本自动分类的繁杂技术,克服了人工分类的不足,可用于管理计算机科学专业的毕业生论文.实验表明,此系统得到了较高的分类准确率.  相似文献   

18.
针对文本分类算法的选择问题,使用二十新闻组数据集在开源的数据挖掘软件Weka上进行了仿真实验。通过实验结果综合评价了朴素贝叶斯算法、IB1算法和ZeroR算法的性能。实验结果表明在三种算法中朴素贝叶斯算法的准确率最高,ZeroR算法的运算速度最快。研究表明文本分类的效率受所选算法的影响较大,合适的算法可以显著地提高文本分类的准确率。  相似文献   

19.
提出一种基于中心核对齐的模糊支持向量机(Centered kernel alignment-based fuzzy support vector machine, CKA-FSVM)算法并应用于中文农业文本分类.首先通过爬虫技术获取2 246个中文农业文本并进行数据预处理,然后进行文本向量化和特征处理,最后构建分类器模型,实现中文农业文本的自动分类.实验结果显示CKA-FSVM算法在中文农业文本分类上的平均准确率为91.69%,平均F1值为94.96%,比5个对比算法中的最好结果分别提升了0.04和0.24个百分点,表明该模型在中文农业文本分类领域具有较好的性能.  相似文献   

20.
基于机器学习的情感分类方法已经取得了较大进展,但在大量情感分类方法中,往往都是结合词嵌入和传统的机器学习方法,缺乏对文本主题以及时序关系等因素的有效利用。针对上述问题,提出了一种基于主题流与深度学习的情感分类算法,通过分析文本的主题分布,并引入时序关系,在此基础上利用适合的长短记忆神经网络的深度学习方法进行情感分类。实验证明,基于主题流与深度学习的情感分类算法性能较好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号