首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
不平衡分类是当今机器学习中的研究热点与难点.为提高不平衡数据的分类效果,提出MetaCost与重采样结合的不平衡分类算法——RS-MetaCost.首先在MetaCost划分子集前对不平衡数据集进行重采样,即过采样少数类或欠采样多数类,以降低或消除数据不平衡程度;其次在预测概率阶段,利用m-estimation提高少数...  相似文献   

2.
为了提升不平衡数据中少数类的分类精度,利用SMOTE采样方法对数据集进行平衡化预处理;为了减轻样本重新合成过程中产生的类重叠和噪声对分类精度的影响,选择模糊粗糙最近邻算法(FRNN)作为分类器。在14个不平衡数据集上进行的仿真实验表明,该方法具有较好的分类表现,F值和G值最高分别可达0.965、0.932,是一种适用于不平衡率偏高数据集的分类方法。  相似文献   

3.
为了提高最小距离分类器的性能,在其基础上提出了一种改进MDC——NN-MDC:它先对训练样本进行修剪,根据每个样本与其最近邻类标的异同决定其取舍,然后再用剩余的训练样本训练得到分类器。采用UCI标准数据集实验,结果表明本文所提出的NN-MDC与MDC相比具有较高的分类精度。  相似文献   

4.
针对古漆器漆膜数据类间不平衡、样本规模小,以及传统机器学习算法分类效果较差的问题,提出一种改进SMOTE的过采样方法改变漆器漆膜数据样本分布,使其达到平衡。该方法通过比较各类样本间的欧式距离,删除了人工样本中的噪声数据,然后运用集成学习中的随机森林算法进行分类,提高了少数类的分类准确率。UCI数据集上的实验结果表明,改进的过采样方法性能更优,评价指标F1-score与AUC值分别得到2%、5%以上的提升。结合改进的过采样方法与机器学习算法进行对比实验,结果证明,随机森林算法精度更高,在对古漆器年代的判别中,随机森林算法的F1-score与AUC值高达87.76%、89.34%。  相似文献   

5.
为减少不均衡数据对支持向量机分类性能的影响,提出一种基于二次支持向量机的欠取样分类算法,该算法依据样本的分类超平面贡献大小对多数类样本进行欠取样.并对少数类样本进行过取样,重构训练数据集。该算法能够删除样本中的噪声数据。用控制参数控制删除样本的规模,实验表明,该算法能够提高支持向量机在不均衡数据集下的分类性能。  相似文献   

6.
针对数据类别不平衡问题,提出一种AdaBoost集成算法,用极限学习机作为基分类器,根据AdaBoost集成各个基分类器,用AdaBoost集成分类器的权值,得出最终结果。实验结果表明,该方法相较于传统ELM算法具有较高的准确率、G mean、F score及更好的灵活性。  相似文献   

7.
传统欠采样方法在处理不平衡数据问题时只考虑多数类样本的绝对位置而忽略了其相对位置,从而使产生的平衡数据集存在边界模糊问题。提出一种改进 K 均值聚类的不平衡数据欠采样算法(UD-PK)。该算法首先利用改进的 PSO 算法迭代寻找全局最优解作为 K-means 聚类所需初始值,然后通过 K-means 进行聚类,再按照每个类别中多数类与少数类的比例定义所取多数类样本个数,并根据多数类样本与簇心距离择优选择参与平衡数据集构造。在 UCI 数据集上的对比试验表明,该算法在少数类准确率上较一些经典算法有很大提升。  相似文献   

8.
《嘉应学院学报》2016,(5):16-20
针对传统Android恶意应用检测方法在处理大规模样本时存在的训练时间长、存储空间消耗大的问题,提出一种基于增量学习SVM的Android恶意应用检测方法.该方法提取Android应用的权限申请和API函数调用特征,利用增量学习SVM理论将训练样本集随机划分为初始样本集和若干个增量样本集,利用循环迭代方法训练SVM分类器,每次新的训练仅保留上一轮训练得到的支持向量集并合并到新增样本集中,舍弃大量对分类结果不产生影响的样本以提高分类器学习效率,同时产生新的支持向量集,并最终得到一个高精度的SVM分类器.通过将增量学习SVM算法与基本SVM算法进行对比实验,结果表明,该算法可以有效降低分类器学习时间,减少样本存储的空间占用,同时随着样本规模的积累逐步提高分类精度.  相似文献   

9.
针对个人信用数据存在连续型和离散型交织并存以及类不平衡问题,为提高信用评估分类效果,提出一种结合代价敏感和集成算法的个人信用评估分类模型.通过集成信息价值、互信息、信息增益率和基尼指数特征,选择算法生成最优特征子集.结合代价敏感构建以L1-逻辑回归、弹性网-逻辑回归、贝叶斯、决策树和神经网络为基模型的集成模型,并辅之动...  相似文献   

10.
在不均衡数据集下,SVM分类超平面的偏移,使得基于KKT条件进行样本选择的增量学习算法性能不佳,针对该问题,提出动态代价的SVM增量学习算法,该算法依据各类样本密度之间的关系动态计算类的错分代价,减少每次迭代中分类超平面偏移造成的错误累积,保证依据KKT条件选取样本的准确性,使得每次迭代选取的样本都包含当前分类器缺少的空间信息,提高最终分类器在不均衡数据集下的分类性能。最后,在UCI数据集上的仿真实验结果表明该算法能够提高不均衡数据下的分类性能。  相似文献   

11.
集成学习算法的效果取决于各个基分类器,如何构造有效的基分类器是关键。对集成学习算法中的Bagging算法进行了研究,提出了一种基于层次抽样构造SVM基分类器的方法进行P2P流分类,并通过实验验证了该方法的有效性。  相似文献   

12.
一个新的基于最近邻分类的人脸识别类器   总被引:1,自引:0,他引:1  
在人脸识别技术中,传统的最近邻分类器(NNC)是最重要的分类器之一,它直接利用测试样本与有训练样本的最小距离进行分类.文章在最近邻分类基础上提出了一个基于最近邻分类人脸识别分类器,利用同一类训练样本的线性组合来表示测度样本,通过计算测试样本到同类训练样本与对应系数乘积的距离进行分类.试验样本来自ORL人脸数据库,试验结果表明文章方案的识别效果优于传统的NNC分类器及其扩展方案CNNC.  相似文献   

13.
非平衡数据分类问题是近些年机器学习和数据挖掘领域的一个研究热点。对于非平衡数据分类问题,标准的分类学习算法不能获得良好的性能,因为它们往往只关注多数类而忽略少数类。从分类学习的3个不同层面对非平衡数据分类算法进行了综述,并指出了该领域未来可能的研究方向。  相似文献   

14.
传统的微博用户人格分析将人格分为五类,但未考虑人格类别之间潜在的关联性。为此基于多标签集成分类方法(RAkEL)进行改进,构建RAkEL-PA模型。RAkEL-PA模型使用标签集合中不同的随机子集训练相应的Label Powerset(LP)分类器,然后集成所有分类结果作为最终分类结果。在微博用户文本消息数据上进行实验,结果表明,RAkEL-PA模型的两个不同策略对用户人格分类准确率较高。RAkEL-PA模型充分考虑多个人格之间的相关性,以提高用户人格分类鲁棒性。  相似文献   

15.
传统的支持向量机分类算法在优化过程中对所有支持向量都进行优化,增加了计算量,降低了训练效率.针对上述缺点,在分析样本模糊隶属关系的基础上,采用改进的K近邻算法为已知样本分配隶属度,根据训练样本的隶属关系,剔除非支持向量,减少训练样本,并将其用于中文网页的分类中,得到了较好的分类效果.仿真实验结果表明,改进后的方法不仅相对简单,而且在保证分类器性能的情况下,能有效地减少支持向量机的训练样本数,从而提高支持向量机的训练和测试速度.  相似文献   

16.
传统的分类算法大多假定用来学习的数据集是平衡的,但实际应用中真正面临的数据集往往是非平衡数据。针对非平衡数据,利用传统的分类方法往往不能获得良好的性能。文章提出了一种新的基于聚类的非平衡分类算法,通过聚类生成多个聚类体,在每个聚类体中选取一定数量的数据作为训练样本,有效地处理了样例数据的不平衡问题,在相关数据集上的实验验证了本方法的有效性。  相似文献   

17.
针对不均衡数据处理问题,提出一种AdaBoost与在线连续极限学习机的集成算法。用在线连续极限学习机(OSELM)作为基分类器,根据AdaBoost集成各个基分类器,用AdaBoost集成分类器的权值,得出最终结果。实验结果表明,该方法具有较高的准确率。  相似文献   

18.
支持向量机(SVM)是统计学习理论最为成功的实现。支持向量机适用于两类样本的分类问题,面对正负样本数目失衡的情况,加权的方法虽然能有效改变分类器对数目小的样本类的预测偏置问题,但往往是以牺牲数目较大样本类的预测精度为前提。单分类支持向量机(One-SVM)只用某一类样本来训练分类器,可以有效避免预测偏置问题的出现。本文将单分类支持向量机(One-classSVM)用于UCI数据库的灯盏花分类研究,结果显示,单分类支持向量机在处理样本数目失衡的模式识别问题中,具有良好的泛化能力,预测精度特异性达到95.45%,同时单分类支持向量机只用一类样本训练分类器,在算法的时间复杂度上也具有优势。  相似文献   

19.
为提高大数据集粗分类识别率,提出一种基于聚类分析的SVM-Kd-tree树型粗分类方法。首先根据数据集特征分布进行k-means两簇聚类,对聚类后的数据集进行类别分析,同时将属于两簇的同一类别样本划分出来;然后使用两簇中剩余样本训练SVM二分类器并作为树型结构根节点,将两簇数据分别合并,将划分出来的样本作为左右子孩子迭代构建子节点,直到满足终止条件后,叶子节点开始训练Kd-tree。实验结果表明,迭代构建树型粗分类方法使训练单一SVM平均时间减少了61.977 4%,比Kd-tree同近邻数量的准确率提高了0.03%。在进行大规模数据集粗分类时,使用聚类分析迭代构建组合分类器时间更短、准确率更高。  相似文献   

20.
构造性学习(CML)算法训练分类器对有些样本会有“拒认状态”,构造性学习算法中对这一状况的处理使用就近原则,然而,这种方法无法体现数据之间的联系.为了能更好地体现数据间的联系,提出了人脑分类机理的构造性学习方法(HB-CML).在测试阶段,把测试样本、训练样本都考虑进来,利用人脑对数据的自动分类机理,对“拒认状态”样本进行分类标记.同时,选取UCI数据集进行实验.结果表明:与CML算法相比,该方法的分类更为有效.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号