首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
不平衡数据在各个应用领域普遍存在。在处理不平衡数据时,破坏原始数据的分布特点和丢弃多数类样本的潜在信息都会降低分类精度,为此,提出一种不平衡数据集成分类方法。从多数类样本中依据计算得到的综合权重进行随机采样,并与少数类样本组成新的训练样本子集|为了保证基分类器的差异性,将投影得到的不同样本子集作为各个基分类器的训练样本,通过多分类器集成学习获得最终分类结果|在UCI数据集下进行实验。结果表明,该方法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类精度。  相似文献   

2.
针对古漆器漆膜数据类间不平衡、样本规模小,以及传统机器学习算法分类效果较差的问题,提出一种改进SMOTE的过采样方法改变漆器漆膜数据样本分布,使其达到平衡。该方法通过比较各类样本间的欧式距离,删除了人工样本中的噪声数据,然后运用集成学习中的随机森林算法进行分类,提高了少数类的分类准确率。UCI数据集上的实验结果表明,改进的过采样方法性能更优,评价指标F1-score与AUC值分别得到2%、5%以上的提升。结合改进的过采样方法与机器学习算法进行对比实验,结果证明,随机森林算法精度更高,在对古漆器年代的判别中,随机森林算法的F1-score与AUC值高达87.76%、89.34%。  相似文献   

3.
传统的分类算法大多假定用来学习的数据集是平衡的,但实际应用中真正面临的数据集往往是非平衡数据。针对非平衡数据,利用传统的分类方法往往不能获得良好的性能。文章提出了一种新的基于聚类的非平衡分类算法,通过聚类生成多个聚类体,在每个聚类体中选取一定数量的数据作为训练样本,有效地处理了样例数据的不平衡问题,在相关数据集上的实验验证了本方法的有效性。  相似文献   

4.
不平衡分类是当今机器学习中的研究热点与难点.为提高不平衡数据的分类效果,提出MetaCost与重采样结合的不平衡分类算法——RS-MetaCost.首先在MetaCost划分子集前对不平衡数据集进行重采样,即过采样少数类或欠采样多数类,以降低或消除数据不平衡程度;其次在预测概率阶段,利用m-estimation提高少数...  相似文献   

5.
传统Fisher线性判别(FLD)的常用阈值对特定数据集的分类精度存在明显差异。为提高分类精度,通过最小化贝叶斯误差对二分类问题的FLD阈值进行了优化设计。对UCI中的8个数据集进行验证,将所得的平均分类精度与常用阈值在这些数据集上所得的平均分类精度进行比较。结果表明,所提出的优化阈值分类效果显著,相比于常用阈值,在平均分类精度上有所提升。  相似文献   

6.
为了使基于网格的聚类技术适用于多密度数据集,提出一种基于局部密度的聚类算法。算法提出将数据单元格密度分类的方法,使得具有不同密度的单元格使用不同密度阈值的进行聚类。同时给出了边界单元的处理方法以提高聚类结果的精度。实验结果表明,GLD算法比其他类似算法有较高的聚类精度和效率。  相似文献   

7.
为了平衡和减少两类不平衡数据的错分率,针对两类不平衡数据的分离超平面的偏置提出一种调整方法。该方法以两类错分概率相等为准则,使用特征提取方法,把高维样本投影到标准支持向量机的法向量上得到一维数据,当一维投影数据服从正态分布时,可由它所提供的信息,对标准的支持向量机中分离超平面的偏置进行调整。随机模拟试验表明了所调整的超平面不仅平衡了错分率而且减少了错分率。与现有方法相比,该方法具有较高的精度。  相似文献   

8.
借助于属性集值的相似程度在集值信息系统上定义了一种新的带有参数的优势关系-α-优势关系,并研究了其性质;同时比较了两类优势关系,得到的结论是:只要合理地设置阈值α就可以提高分类的精度,从而提高对数据预测、分类的准确度.  相似文献   

9.
利用对某网络公司的客户数据使用K均值聚类方法,针对数据中存在的缺失和变量共线性严重的情况,对数据进行预处理。通过选择出符合分类目的的变量得出可用于聚类的完整数据集。然后通过建模对客户进行分类,利用已人为分类的100个样本为训练集。  相似文献   

10.
针对传统的特征选择方法在非平衡数据集中分类效果不理想的问题,提出了一种适合非平衡数据分类的改进特征选择方法.该方法将集中度和分散度相结合,同时考虑到在文本长短不一时词频对文本分类的作用,得到一种新的词频归一化方法,实现了对传统特征提取方法的改进.另一方面,将三支决策思想引入到朴素贝叶斯算法,得到了NB-三支决策分类算法,并将该算法应用到非平衡数据集的分类.通过两组实验对比结果表明:改进特征选择方法较CHI和IG方法,处理非平衡度高的数据集分类效果较好;选取相同的特征选择方法和数据集,NB-三支分类器比NB-分类器的分类效果好.选用本文提出的改进特征选择方法和NB-三支分类器,在处理非平衡度高且文本长短不一的数据集时,分类效果有一定提升.  相似文献   

11.
为了提高脑力负荷分类准确率,提出一种将Bagging和极限学习机相结合的集成算法。用极限学习机(ELM)作为底层弱分类器,通过多数投票方式决定最终类别的标签,从而构建最终强分类器。实验结果表明,在脑力负荷识别研究问题上,该集成算法的分类准确率在4个被试数据集上分别达到了96.17%、96.02%、92.50%和93.50%。相较于传统的ELM算法,分类准确率在4个被试数据集上分别提升了1.59%、1.34%、2.86%和1.80%。并且新算法在精确率、灵敏度和特异度等评估标准上均高于传统ELM分类器。  相似文献   

12.
针对(αi,k)—匿名算法使用有损链接思想无法对用户身份进行保护的问题,引入属性分区置换概念,提出基于属性分区的(αi,k)-p匿名算法,对桶中QI属性采取分区、置换的方式保护用户身份信息。在人口真实数据集21 956条数据上对两种算法进行敏感值保护和会员身份保护有效性对比实验。结果表明,敏感值泄露概率最高时只刚好超过0.05,接近传统方法的1/4;在会员身份保护方面,FOR值在0.7以上。相对于(αi,k)—匿名算法,该算法能更好地保护敏感值信息和会员身份信息。  相似文献   

13.
文章考虑特征项的概率信息又结合文本的语义信息来计算特征项的权值,提出一种新的用于文本分类的特征项权值计算方法(FreSem),采用支持向量机(SVM)分类器进行实验,与传统的频率、TFIDF两种方法相比,能有效地提高文本分类的正确率。  相似文献   

14.
针对传统信用评价方法分类精度较低、数据集属性变量间存在相关性等问题,提出基于主成分分析的稀疏贝叶斯学习(PCA-SBL)算法。首先对数据集特征变量进行主成分分析,使降维后的变量无相关性|其次,对主成分分析后的数据进行稀疏贝叶斯分类|最后将 PCA-SBL 分类方法分类精度与传统分类方法精度进行比较。分析发现,在 German Credit Data 和 Australian Credit Data 上,与传统 KNN、朴素贝叶斯、SVM、随机森林、决策树相比,改进的 SBL 算法分类精度平均提高了 5.26%、4.65%、2.11%、2.125%、4.66%,与稀疏贝叶斯学习算法(SBL)相比,平均提高 0.965%,从而证明 PCA-SBL 算法具有更高的分类效果。  相似文献   

15.
基于Web超链接结构信息的网页分类技术研究   总被引:1,自引:0,他引:1  
充分利用相邻网页(包括链人和链出)的相关信息,提出一种基于Web超链接结构信息的网页分类改进方法.其方法分为5步:(1)预处理训练集,提取文本信息和超链接结构信息;(2)抽取特征向量和训练一个Web页面的全文本分类器;(3)根据网页的各个人口的锚点文本和扩展锚点文本创建虚文档,用虚文档代替Web页面全文本训练一个虚文档分类器;(4)利用Naive Bayes方法协调两个分类器得到初步分类结果;(5)利用链出网页对初步分类结果进行修正,得到最终分类结果.根据改进方法实现了网页自动分类原型系统,并进行分类实验,实验表明该方法有效提高了分类性能.  相似文献   

16.
将抽象因子分析法用于解析配合物体系的吸光度数据以确定体系中的吸光物种数,为研究表面活性剂对金属离子与显色剂反应体系增敏作用机理提供一种新方法。用该法对Fe(Ⅲ)-SCN和Fe(Ⅲ)-SCN-Tween-80两显色体系的吸光度数据进行处理,结果表明,新的多元配合物的生成是表面活性剂对Fe(Ⅲ)-SCN显色反应增敏的主要原因。  相似文献   

17.
传统欠采样方法在处理不平衡数据问题时只考虑多数类样本的绝对位置而忽略了其相对位置,从而使产生的平衡数据集存在边界模糊问题。提出一种改进 K 均值聚类的不平衡数据欠采样算法(UD-PK)。该算法首先利用改进的 PSO 算法迭代寻找全局最优解作为 K-means 聚类所需初始值,然后通过 K-means 进行聚类,再按照每个类别中多数类与少数类的比例定义所取多数类样本个数,并根据多数类样本与簇心距离择优选择参与平衡数据集构造。在 UCI 数据集上的对比试验表明,该算法在少数类准确率上较一些经典算法有很大提升。  相似文献   

18.
该文提出了一个基于层次分析法(AHP)构建信用评分卡的方法并介绍了其在计算机中的实现方法.该种方法易于操作,简洁而实用,更重要的是,该种方法能够充分综合利用企业定量与定性要素信息.经过验证,该方法构建的评分卡具有良好的表现.  相似文献   

19.
为减少不均衡数据对支持向量机分类性能的影响,提出一种基于二次支持向量机的欠取样分类算法,该算法依据样本的分类超平面贡献大小对多数类样本进行欠取样.并对少数类样本进行过取样,重构训练数据集。该算法能够删除样本中的噪声数据。用控制参数控制删除样本的规模,实验表明,该算法能够提高支持向量机在不均衡数据集下的分类性能。  相似文献   

20.
针对癫痫脑电(EEG)信号的非平稳性和非线性,提出一种基于集合经验模式分解(EEMD)提特征并利用最小二乘支持向量机(LS-SVM)的脑电信号分类方法。首先利用EEMD将EEG信号分成多个经验模式分量,得到各阶本征模式分量(IMF),然后提取有效特征,最后用LS-SVM对其进行分类,实验结果表明,该方法对癫痫发作间歇期和发作期EEG的提特征后分类识别正确率达到98%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号