首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 39 毫秒
1.
为提高早期糖尿病患病风险的预测准确性,基于集成学习算法建立糖尿病患病风险预测模型.分别基于集成学习算法随机森林、GBDT和XGBoost建立糖尿病预测模型,并比较以上3种方法与单一分类器支持向量机和BP神经网络的分类预测性能.在UCI数据库的早期糖尿病数据集上进行验证试验,使用准确率、精确率、召回率、F1分数和AUC ...  相似文献   

2.
针对个人信用数据存在连续型和离散型交织并存以及类不平衡问题,为提高信用评估分类效果,提出一种结合代价敏感和集成算法的个人信用评估分类模型.通过集成信息价值、互信息、信息增益率和基尼指数特征,选择算法生成最优特征子集.结合代价敏感构建以L1-逻辑回归、弹性网-逻辑回归、贝叶斯、决策树和神经网络为基模型的集成模型,并辅之动...  相似文献   

3.
为了提高个人信用评分模型算法预测精准率,受视觉领域数据增广思路启发,提出融合数据增广技术与机器学习算法的个人信用评分模型。该模型首先对原始个人信用数据进行数据增广处理,然后基于机器学习分类算法训练一个二分类个人信用评分模型,最后基于公开个人信用数据集,分别建立未经过数据增广和经过数据增广处理后的个人信用评分模型。对比准确率、精确率、召回率、F1 得分、AUC 值和 ROC 曲线等 6 个性能评价指标,结果显示,相较于仅基于机器学习算法的个人信用评分模型,融合了数据增广技术与机器学习算法的个人信用评分模型使得分类性能得到了一定提升,分类准确率平均高出 5%。  相似文献   

4.
为了提高南京某所某型雷达伺服系统故障诊断准确率,考虑到传统故障诊断算法的局限性,提出一种基于 Stacking 集成算法的雷达伺服系统故障诊断方法。针对某所某型雷达伺服系统的历史监测数据,首先采用孤立森林算法识别异常样本|然后基于原始数据构造出新的特征,使用卡方检验进行特征选择,并使用SMOTE 算法解决样本不平衡问题|最后,通过建立一种新颖、准确的基于 XGBoost、随机森林和 BP 神经网络的Stacking 集成模型进行故障诊断。实验结果表明,该方法在测试集上的诊断准确率达到了 96.2%,比传统方法诊断准确率提高了 1.8%,证明该方法能够很好地完成雷达伺服系统故障诊断任务。  相似文献   

5.
现代数字化工业生产中,制造、组装和测试过程会产生大量数据,这些数据中隐藏着决定产品质量的信息和知识。使用传统抽检手段发现质量问题后再加以修改往往为时已晚。数据挖掘中用生产参数预测产品质量,可以预先获取产品质量信息,据此进行调整以提高产品质量。采用CRISP-DM流程,使用集成学习算法(随机森林、XGBoost),利用回归与分类模型进行数据挖掘,经参数调节获得精确的优化模型,在生产中运用该模型有助于提升产品质量。  相似文献   

6.
针对复杂非线性多通道时变信号模式分类问题,提出了一种集成卷积神经网络(CNN)与随机森林(RF)相融合的方法。该方法以CNN为基学习器,自动提取信号样本的抽样特征,同时省去降维与人工选择特征的过程,以RF为次级学习器,增加样本扰动,同时增加属性扰动。为增强样本多样性,使得该模型尽可能充分利用信息,在训练集中随机抽取7份子训练集,再利用7份子训练集训练出7个不同的学习器;最后通过投票法和学习法建立集成模型,提高了识别精度。实验结果表明,在测量区间上,该方法对3种ECG信号类别的平均分类精度达94.60%,提高了1.1%,取得了良好结果,验证了模型和算法的有效性。  相似文献   

7.
针对古漆器漆膜数据类间不平衡、样本规模小,以及传统机器学习算法分类效果较差的问题,提出一种改进SMOTE的过采样方法改变漆器漆膜数据样本分布,使其达到平衡。该方法通过比较各类样本间的欧式距离,删除了人工样本中的噪声数据,然后运用集成学习中的随机森林算法进行分类,提高了少数类的分类准确率。UCI数据集上的实验结果表明,改进的过采样方法性能更优,评价指标F1-score与AUC值分别得到2%、5%以上的提升。结合改进的过采样方法与机器学习算法进行对比实验,结果证明,随机森林算法精度更高,在对古漆器年代的判别中,随机森林算法的F1-score与AUC值高达87.76%、89.34%。  相似文献   

8.
胡燮 《教育技术导刊》2009,8(2):169-170
对数据挖掘和数据仓库技术在个人信用系统中的应用做研究,构建多维信用系统数据仓库与信用评估模型并实现相关算法。  相似文献   

9.
为提高销售预测准确率,提出一种基于改进 XGBoost 的销售预测方法。首先对销售量影响因素进行特征分析,通过改进灰色关联分析方法对训练数据进行降维处理|然后采用基于 XGBoost 算法的销售预测方法对降维后的特征数据进行监督训练|最后使用训练后的模型对销售情况进行预测评估。实验结果表明,基于灰色关联分析和 XGBoost 模型的销售预测方法正确率达到 95%以上,比传统的经典预测方法提高 35%以上,比 XG?Boost 预测方法提高 19.6%。基于灰色关联分析与 XGBoost 模型的销售预测方法不仅能有效处理海量数据,提高销售预测准确率,还能为制造企业实现产品精准投放提供决策依据。  相似文献   

10.
企业偷漏税手段呈多样化、专业化、普遍化、隐蔽化趋势。为更好地识别企业是否存在偷漏税行为,基于Python语言,在Anaconda集成开发环境下通过机器学习的Scikit-Learn包构建随机森林模型,通过交叉验证算法选择最优模型。对汽车销售行业纳税人是否存在偷漏税行为进行自动识别。结果表明,基于随机森林模型的偷漏税行为自动识别相对于其它常见的分类模型(k-近邻算法、逻辑回归模型、决策树模型和Adaboost算法),具有较高的准确率,分类性能更好,可以满足偷漏税行为的自动识别需求。  相似文献   

11.
银行卡在给银行创造了高额利润的同时,也带来了很大的信用风险.对于银行来说,严格把控信用申请者,对其进行有效的信用评分和预测十分关键.采用数据挖掘技术中的决策树算法能有效屏蔽银行信用评估中的主观因素,通过海量数据预处理、决策树生成等步骤,最后通过相关算法实现能客观地形成预测值,从而准确地进行信用评分.  相似文献   

12.
针对信用评价中最为常见的不平衡小样本数据集问题,以及不同误分类造成的损失代价不同问题,在传统SVM模型基础上,提出采用过采样的SMOTE算法解决数据不平衡问题。在核SVM模型的基础上运用交叉验证得出核最优参数,加入非对称误差成本(DEC),提高将高风险误分为低风险的成本,建立更适用于信用评价的模型。经数据验证,该算法有效弥补了传统SVM模型在不平衡数据集分类中的缺陷,避免了小样本数据集样本过少而使得模型泛化能力降低的问题。加入DEC之后的模型与未加入的相比,虽分类准确率略有降低,但将高风险误分为低风险的错误明显降低,更适用于信用评价模型。  相似文献   

13.
为提升互联网金融行业贷款人决策的直观性与层次性,提出一种信用分级模型。对历史样本的信用评价指标进行主成分分析,提取关键信息。利用 Logit 回归模型得到“是否违约”和“评价指标主成分”的关系,依据回归方程所得的“违约概率”对借款人进行信用分级。采用遗传模拟退火算法(GSAA)改进的 BP 神经网络,学习“等级”和“评价指标”间的映射规则。利用 Kaggle 网站信用数据集进行实验,结果表明,Logit 回归结果可信度高,“依概率分级”区分度高,GSAA 算法可有效提升 BP 神经网络的精准分级率。分级模型在测试样本上的可信度为 99.02%,优于二值分类和指标赋权模型,可有效降低贷款人资金风险,推动互联网金融行业高质量发展。  相似文献   

14.
如何从小样本、高维度特性的功能磁共振成像(fMRI)数据中识别出内在的脑区活动模式,对理解人脑意义重大。随着模式识别技术和机器学习算法的发展,fMRI的分类研究也引起了人们的重视。提出一种对fMRI数据分类的加权随机SVM集群(WRSVMC)算法。该算法分为两步,首先通过随机选择样本和特征建立多个SVM,以构建集成分类器;然后在投票过程中,对每个SVM赋权重,以优化模型的集成性能。结合fMRI数据和图论特征,采用WRSVMC算法对轻度认知障碍(MCI)患者数据展开分类研究。结果表明,准确率最高可达87.67%。该方法能帮助医师对MCI患者进行辅助诊断。  相似文献   

15.
不透水面是影响山区生态环境的重要因素.多源遥感数据融合是不透水面提取的重要方法,但容易造成分类特征冗余,需要进行特征优选.现有研究尚缺乏对不同特征优选方法在不透水面遥感提取中的对比分析.首先使用Sentinel-1和Sentinel-2影像等数据提取特征,然后分别基于JM距离、随机森林(RF)模型和ReliefF算法进...  相似文献   

16.
为了科学合理地对个人信用进行分级评价,本文提出了一种基于离散Hopfield神经网络的个人信用评价模型。由于离散Hopfield神经网络结构特征,使得其学习的过程可以演化到稳定状态,能够模拟生物神经网络的记忆机理,弱化评价中的人为因素,提高评价结果的准确性和权威性。同时借鉴美国FICO信用评分表的12个影响因素作为个人信用评价指标,把个人信用等级分为A,B和C三个等级,构建离散Hopfield神经网络个人信用评价模型。将3个待分类的个人指标数据进行仿真实验,结果表明该模型能够对个人信用进行有效的分级评价。  相似文献   

17.
个人信用作为社会信用体系建设的重要部分,将其结合现代计算机理论技术来构建个人信用评分模型一直是研究的热点。本文利用前人遗传算法筛选出来的个人信用相关重要属性,并从这些重要属性的3种分类中依类定性地取出部分属性,结合自适应神经模糊推理系统理论(ANFIS),建立基于遗传算法和AN-FIS的个人信用评分模型。对选取的数据实证分析,并与GA-SVM方法的结果作了比较,试验结果表明该模型只需少量重要属性变量就能够有较好的分类效果。  相似文献   

18.
为了提高脑力负荷分类准确率,提出一种将Bagging和极限学习机相结合的集成算法。用极限学习机(ELM)作为底层弱分类器,通过多数投票方式决定最终类别的标签,从而构建最终强分类器。实验结果表明,在脑力负荷识别研究问题上,该集成算法的分类准确率在4个被试数据集上分别达到了96.17%、96.02%、92.50%和93.50%。相较于传统的ELM算法,分类准确率在4个被试数据集上分别提升了1.59%、1.34%、2.86%和1.80%。并且新算法在精确率、灵敏度和特异度等评估标准上均高于传统ELM分类器。  相似文献   

19.
基于神经网络的个人信用评分模型研究   总被引:2,自引:0,他引:2  
在国际上,个人信用评分是个人信贷风险防范的重要环节,而中国目前还没有制定出一套规范的个人信用评分指标体系和方法。本研究利用真实的个人消费信贷数据,选择适合的字段作为指标变量并进行归一化处理,结合个人信用评分的特点,选择BP神经网络算法建立了个人信用评分模型。实证研究表明:该模型预测精确度较高,具有较强的判别预测能力,但稳健性却不是很理想;适用于样本分布不断变化或数据结构不太清楚的情况,但却存在过度拟合的问题。  相似文献   

20.
基于在线学习行为预测学生成绩可以辅助教师动态掌握学情,制定差异化的教学策略,然而在混合课程中仅仅依据在线数据对学生成绩迸行预测难度很大,尚处于探索中.文章选取某高校2018秋季学期和2020春季学期的"高活跃型混合课程"学生在线行为数据,采用增量学习的随机森林算法构建学生成绩预测模型,研究发现:(1)增量学习随机森林算法在混合课程样本最多的数据集中,获得预测结果准确率最高(75.1%);(2)相较于批量学习随机森林算法,增量学习算法在数据样本量较多的数据集中预测结果准确率更高;(3)当样本数量达到一定规模后,预测结果准确率波动减小、稳定性增强.本研究采用增量学习随机森林算法预测混合课程中的学生成绩,不仅取得了较好的预测准确率,而且解决了新增数据后模型的稳定性问题,将有助于模型的迭代优化,提高模型的通用性,以及可持续追踪学生在不同学期的学习行为特征.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号