首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 500 毫秒
1.
SVM算法只使用已归类的数据训练分类器,而EM算法用少量已归类数据,结合大量的未归类数据来训练分类器,在减少已归类数据的同时保证了分类器的精度。本文基于EM算法的思想,根据SVM文本分类模型,提出一种新的迭代SVM文本分类算法。实验结果表明,迭代SVM算法分类精度高于传统的SVM文本分类算法,具有较好的性能。  相似文献   

2.
传统的文本分类算法存在:忽视训练集的相对固定特征与新文献主题不断交化之间的矛盾,类间没有层次关系从而导致分类不太准确、效率低等问题,对此设计并实现了一种增量式的半监督文本分类算法-IC-Rocchio算法,实验结果表明,该算法能有效地改进这两方面的问题.  相似文献   

3.
文本自动分类是一种有效的组织信息和管理信息的工具.传统分类方法一般在分类效果和运行效率两者上不可兼得.通过综合Rocchio和KNN两种分类方法的优点,设计了一种基于多代表点的文本分类方法,该方法通过对各类挖掘出多个有效的代表点(真实或虚拟的),再使用基于这些代表点的Rocchio和KNN方法进行分类.实验表明,该方法以较少的训练时间达到令人满意的分类效果,并且能很好解决不平衡类问题,实验结果显示该方法能达到与SVM相当的分类效果.  相似文献   

4.
针对垃圾邮件大量存在的问题,提出基于MapReduce并行SVM的垃圾邮件分类算法,用支持向量机作为分类器,基于MapReduce将各子分类器进行合并,并通过重训练得到模型,利用该模型对测试集进行分类,得到结果。为解决算法精度损失、准确率低等问题,引入KNN,在原算法基础上进行循环迭代。  相似文献   

5.
支持向量机用于二类问题的识别研究,但在实际应用中多类分类问题更为普遍。文章先对现有的几种多类SVM作以介绍和比较,并提出基于层次SVM结构构造正态分层SVM分类树解决多类分类问题,通过自顶向下逐层依次构造SVM分类器,将所得子类进一步平均分成两个次级子类的方法。获得分类器结构的简化和分类速度的提高。  相似文献   

6.
SVM(Support Vector Machine,支持向量机)是由Vapnik等人提出的一种新的机器学习方法。以结构误差理论、条件二次优化理论与核空间理论作为理论基础,能够较地的解决机器学习的问题,如模型选择、过学习、非线性问题和灾难维数等,很适合应用在文本分类领域。针对文本分类技术的新问题,研究了已有的主动学习方法并对其进行改进,提出了一种新的主动学习算法,很好地解决了小规模标注样本集的分类问题。该方法尤其在难以获得大量类标签或者标注样本耗费较大的领域,更能显示出它的优越性,适合日新月异的互联网的应用。  相似文献   

7.
如今文本自动分类技术发展已较为成熟,中文网页的分类也是自动分类技术的应用之一.分类精度依赖于分类算法,贝叶斯算法在网页分类中有很广泛的使用,但它需要大量且已标记的训练集,而获得大量带有类别标注的样本代价很高.本文以中文网页信息增量式的学习作为研究对象,利用网页已验信息处理训练集增量问题,提出一种改进的增量式的贝叶斯分类算法,研究利用未标记的中文网页来提高分类器的性能,并进行相关实验对比和评价.  相似文献   

8.
中文文本分类是对中文按类别来进行分类。基于交叉覆盖算法的文本分类运用交叉覆盖算法作为分类器,能够实现对中文文本的分类。通过它和SVM(Support Vector Machine)分类器的对比实验,说明了交叉覆盖算法,相比于SVM分类器对中文文本分类效果更好。  相似文献   

9.
针对目前国内外学者对微博情感只作二分类研究,仅仅从正面和负面研究微博情感不足的问题,选取NLPCC2013-2014年多情感的微博数据集,重点研究常用的3种机器学习算法、3种特征选择以及特征权重方法对中文微博情感多分类的影响。实验表明:不管选择哪种特征权重,使用SVM的微博文本分类准确率都最高,KNN的准确率最低;不同特征权重下,信息增益作为特征选择的方法时,3个算法各自准确率都是最高的;当信息增益为特征选择,TF-IDF为特征权重时,支持向量机的文本分类准确率最高。由于微博简短、口语化,词袋模型忽视了词与词间的联系,导致微博情感分类准确率不高。  相似文献   

10.
利用RBF网络进行文本自动分类,对训练集进行聚类,使得每个簇内部的相似性尽可能高,而簇之间的相似性尽可能低.为每一个簇的中心定义相应的径向基函数,再对由这些径向基函数构成的两层神经网络进行训练.因考虑到了不同簇之间的差异性,因此很好解决"兼类"问题.  相似文献   

11.
影响语料库代表性的主要因素有;语料库总体的定义、语篇的分类和层次、语料库的规模。建立具有代表性的语料库,首先必须从时间、地域、社会语言学、类型等方面对语言总体进行明确地限定;设计语篇的抽样层次必须对语料进行多堆、全面地分类,井确定各层次和部分的合理比例;决定语料库的总体规模应该考虑建库的目的以及财力和技术的限制,确定语篇类型的大小和单个语篇的长度,主要依据所研究的语言现象的常见程度。  相似文献   

12.
讨论了网页分类过程中数据预处理的相关技术,提出一种网页预处理方法,将网页解析为DOM树结构,通过分析、整理,得到噪音信息的特征,并依据判定规则,找出噪音信息并删除处理。网页去噪后,提取页面中的文本信息和每个相关链接目标URL、源URL及锚文本并存入数据库。实验结果证明,该去噪方法可以有效去除网页噪音,利用所提取的超链接结构信息分类网页,可以有效提高分类精度。  相似文献   

13.
认知语义学是George Lakoff首倡的认知语言理论。认知语义学家越来越多地将他们的研究拓展到语篇层面,提出了许多分析方法和理论。基于Lakoff的体验哲学和理想认知模型理论,以及认知语言学的重要创见——原型理论和心理空间理论,运用语篇动态分析方法,提出应从"认知世界"(包括ICM和背景知识)的视角去分析语篇的连贯,同时结合认知语义学分析词句层面的几种基本认知方式(主要包括体验、激活、凸显、原型、搭桥,关联等)来分析语篇连贯性,提出从认知语义学角度探析语篇连贯的方法。  相似文献   

14.
该文探讨了多媒体技术发展中的数字压缩技术,并针对最优二叉树的编码问题,提出一种基于“简单原则”的新方法。最优二叉树又称Huffman树,其编码源于一些应用中不同符号的相关频数,而选择两个结点权值最小的二叉树时,将造成生成的Huffman树“形态”不唯一,从而使编、译码不唯一确定。采用该文的方法,使得这些字符的Huffman编码是唯一的。最后给出一个实例,表明此方法的实用性。  相似文献   

15.
基于模糊分类规则树的文本分类   总被引:2,自引:0,他引:2  
针对传统的基于关联规则的文本分类方法在分类文本时需要遍历分类器中的所有规则,分类效率非常低的问题,提出一种基于模糊分类规则树(FCR-tree)的文本分类方法.分类器中的规则以树的形式存储,由于树型结构避免了重复结点的存储,节省了存储空间.模糊分类关联规则与一般分类规则相比,不仅包含了词条信息,还包含了词条出现频度对应的模糊集,所以FCR-tree的构建过程及树的结构不同于一般规则树CR-tree.为降低构建及遍历FCR-tree的难度,采用了构造多棵k-FCR-tree的方法.在搜索规则树时,如果结点中的词条没在待分类文本中出现,则不需要再搜索该结点引导的子树,大大减少了需要匹配的规则的数量.实验表明该方法是可行的,与遍历分类器的分类方法相比,分类效率有了明显提高.  相似文献   

16.
教育技术领域术语提取研究   总被引:3,自引:0,他引:3  
近年来,在教育技术领域陆续开展了多项元研究工作,这些研究的一个共同特点就是人工建立一个分类体系,然后将研究样本纳入这些分类体系,这其实就是一个文本分类过程。目前,自然语言处理领域已有较为成熟的文本自动分类技术。但是已有的研究中却没有采用该技术。这与当前缺乏教育技术领域术语词典也有关系。文章以远程教育领域为例,以《开放教育研究》杂志2002年至2006年五年的题录信息为样本,在总结教育技术领域部分术语构成规则的基础上,研制出一种规则和统计相结合的算法来提取术语。测试结果表明,本算法术语识别的准确率为66.7%,召回率为76.7%,与现有的一些术语提取算法结果相近,可以较好的帮助研究者完成术语提取工作,并为及时发现教育技术领域的新术语带来可能。  相似文献   

17.
哈夫曼编码的另一种实现算法   总被引:1,自引:0,他引:1  
传统哈夫曼编码借助树形结构构造,算法实现时使用链表或静态链表结构,空间的每个结点内有左、右子树、双亲指针。本文给出了哈夫曼编码的另一种实现算法,该算法抛开树结构,用一个数组模拟二叉树的创建过程并得到符号的深度,然后根据这一信息为每个符号分配编码。对于大型文件来说,整个编码、译码过程中需要的空间比传统哈夫曼编码要少得多。  相似文献   

18.
针对如何由二叉树的遍历序列来唯一确定二叉树的问题,提出了用两种遍历序列唯一确定一棵二叉树的方法.理论分析证明,已知先序遍历和中序遍历或者已知后序遍历和中序遍历可以唯一确定一棵二叉树,但已知后序遍历和先序遍历就不能唯一确定了.文中还对用两种遍历序列唯一重构一棵二叉树算法进行了描述.  相似文献   

19.
通过介绍文本分类的过程及其关键技术,讨论了文本表示、分类算法、分类器性能评价原理和方法;最后,指出了当前文本分类过程中存在的问题,并对今后的发展进行了展望.  相似文献   

20.
文本分类是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程,本文对、NET文本分类检索中所涉及的关键技术贝叶斯网分类方法,进行了研究和探讨,并且提出了基于向量空间的.NET文本分类检索的结构,并给出了会估计方法和实验结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号