共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
为了提升不平衡数据中少数类的分类精度,利用SMOTE采样方法对数据集进行平衡化预处理;为了减轻样本重新合成过程中产生的类重叠和噪声对分类精度的影响,选择模糊粗糙最近邻算法(FRNN)作为分类器。在14个不平衡数据集上进行的仿真实验表明,该方法具有较好的分类表现,F值和G值最高分别可达0.965、0.932,是一种适用于不平衡率偏高数据集的分类方法。 相似文献
3.
为了提高最小距离分类器的性能,在其基础上提出了一种改进MDC——NN-MDC:它先对训练样本进行修剪,根据每个样本与其最近邻类标的异同决定其取舍,然后再用剩余的训练样本训练得到分类器。采用UCI标准数据集实验,结果表明本文所提出的NN-MDC与MDC相比具有较高的分类精度。 相似文献
4.
针对古漆器漆膜数据类间不平衡、样本规模小,以及传统机器学习算法分类效果较差的问题,提出一种改进SMOTE的过采样方法改变漆器漆膜数据样本分布,使其达到平衡。该方法通过比较各类样本间的欧式距离,删除了人工样本中的噪声数据,然后运用集成学习中的随机森林算法进行分类,提高了少数类的分类准确率。UCI数据集上的实验结果表明,改进的过采样方法性能更优,评价指标F1-score与AUC值分别得到2%、5%以上的提升。结合改进的过采样方法与机器学习算法进行对比实验,结果证明,随机森林算法精度更高,在对古漆器年代的判别中,随机森林算法的F1-score与AUC值高达87.76%、89.34%。 相似文献
5.
张燕 《商洛师范专科学校学报》2014,(4):38-41
为减少不均衡数据对支持向量机分类性能的影响,提出一种基于二次支持向量机的欠取样分类算法,该算法依据样本的分类超平面贡献大小对多数类样本进行欠取样.并对少数类样本进行过取样,重构训练数据集。该算法能够删除样本中的噪声数据。用控制参数控制删除样本的规模,实验表明,该算法能够提高支持向量机在不均衡数据集下的分类性能。 相似文献
6.
7.
传统欠采样方法在处理不平衡数据问题时只考虑多数类样本的绝对位置而忽略了其相对位置,从而使产生的平衡数据集存在边界模糊问题。提出一种改进 K 均值聚类的不平衡数据欠采样算法(UD-PK)。该算法首先利用改进的 PSO 算法迭代寻找全局最优解作为 K-means 聚类所需初始值,然后通过 K-means 进行聚类,再按照每个类别中多数类与少数类的比例定义所取多数类样本个数,并根据多数类样本与簇心距离择优选择参与平衡数据集构造。在 UCI 数据集上的对比试验表明,该算法在少数类准确率上较一些经典算法有很大提升。 相似文献
8.
《嘉应学院学报》2016,(5):16-20
针对传统Android恶意应用检测方法在处理大规模样本时存在的训练时间长、存储空间消耗大的问题,提出一种基于增量学习SVM的Android恶意应用检测方法.该方法提取Android应用的权限申请和API函数调用特征,利用增量学习SVM理论将训练样本集随机划分为初始样本集和若干个增量样本集,利用循环迭代方法训练SVM分类器,每次新的训练仅保留上一轮训练得到的支持向量集并合并到新增样本集中,舍弃大量对分类结果不产生影响的样本以提高分类器学习效率,同时产生新的支持向量集,并最终得到一个高精度的SVM分类器.通过将增量学习SVM算法与基本SVM算法进行对比实验,结果表明,该算法可以有效降低分类器学习时间,减少样本存储的空间占用,同时随着样本规模的积累逐步提高分类精度. 相似文献
9.
10.
11.
12.
13.
非平衡数据分类问题是近些年机器学习和数据挖掘领域的一个研究热点。对于非平衡数据分类问题,标准的分类学习算法不能获得良好的性能,因为它们往往只关注多数类而忽略少数类。从分类学习的3个不同层面对非平衡数据分类算法进行了综述,并指出了该领域未来可能的研究方向。 相似文献
14.
传统的微博用户人格分析将人格分为五类,但未考虑人格类别之间潜在的关联性。为此基于多标签集成分类方法(RAkEL)进行改进,构建RAkEL-PA模型。RAkEL-PA模型使用标签集合中不同的随机子集训练相应的Label Powerset(LP)分类器,然后集成所有分类结果作为最终分类结果。在微博用户文本消息数据上进行实验,结果表明,RAkEL-PA模型的两个不同策略对用户人格分类准确率较高。RAkEL-PA模型充分考虑多个人格之间的相关性,以提高用户人格分类鲁棒性。 相似文献
15.
林关成 《渭南师范学院学报》2012,(2):83-86
传统的支持向量机分类算法在优化过程中对所有支持向量都进行优化,增加了计算量,降低了训练效率.针对上述缺点,在分析样本模糊隶属关系的基础上,采用改进的K近邻算法为已知样本分配隶属度,根据训练样本的隶属关系,剔除非支持向量,减少训练样本,并将其用于中文网页的分类中,得到了较好的分类效果.仿真实验结果表明,改进后的方法不仅相对简单,而且在保证分类器性能的情况下,能有效地减少支持向量机的训练样本数,从而提高支持向量机的训练和测试速度. 相似文献
16.
《荆门职业技术学院学报》2014,(2)
传统的分类算法大多假定用来学习的数据集是平衡的,但实际应用中真正面临的数据集往往是非平衡数据。针对非平衡数据,利用传统的分类方法往往不能获得良好的性能。文章提出了一种新的基于聚类的非平衡分类算法,通过聚类生成多个聚类体,在每个聚类体中选取一定数量的数据作为训练样本,有效地处理了样例数据的不平衡问题,在相关数据集上的实验验证了本方法的有效性。 相似文献
17.
针对不均衡数据处理问题,提出一种AdaBoost与在线连续极限学习机的集成算法。用在线连续极限学习机(OSELM)作为基分类器,根据AdaBoost集成各个基分类器,用AdaBoost集成分类器的权值,得出最终结果。实验结果表明,该方法具有较高的准确率。 相似文献
18.
支持向量机(SVM)是统计学习理论最为成功的实现。支持向量机适用于两类样本的分类问题,面对正负样本数目失衡的情况,加权的方法虽然能有效改变分类器对数目小的样本类的预测偏置问题,但往往是以牺牲数目较大样本类的预测精度为前提。单分类支持向量机(One-SVM)只用某一类样本来训练分类器,可以有效避免预测偏置问题的出现。本文将单分类支持向量机(One-classSVM)用于UCI数据库的灯盏花分类研究,结果显示,单分类支持向量机在处理样本数目失衡的模式识别问题中,具有良好的泛化能力,预测精度特异性达到95.45%,同时单分类支持向量机只用一类样本训练分类器,在算法的时间复杂度上也具有优势。 相似文献
19.
为提高大数据集粗分类识别率,提出一种基于聚类分析的SVM-Kd-tree树型粗分类方法。首先根据数据集特征分布进行k-means两簇聚类,对聚类后的数据集进行类别分析,同时将属于两簇的同一类别样本划分出来;然后使用两簇中剩余样本训练SVM二分类器并作为树型结构根节点,将两簇数据分别合并,将划分出来的样本作为左右子孩子迭代构建子节点,直到满足终止条件后,叶子节点开始训练Kd-tree。实验结果表明,迭代构建树型粗分类方法使训练单一SVM平均时间减少了61.977 4%,比Kd-tree同近邻数量的准确率提高了0.03%。在进行大规模数据集粗分类时,使用聚类分析迭代构建组合分类器时间更短、准确率更高。 相似文献
20.
《西安文理学院学报》2016,(1)
构造性学习(CML)算法训练分类器对有些样本会有“拒认状态”,构造性学习算法中对这一状况的处理使用就近原则,然而,这种方法无法体现数据之间的联系.为了能更好地体现数据间的联系,提出了人脑分类机理的构造性学习方法(HB-CML).在测试阶段,把测试样本、训练样本都考虑进来,利用人脑对数据的自动分类机理,对“拒认状态”样本进行分类标记.同时,选取UCI数据集进行实验.结果表明:与CML算法相比,该方法的分类更为有效. 相似文献