首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
为提高早期糖尿病患病风险的预测准确性,基于集成学习算法建立糖尿病患病风险预测模型.分别基于集成学习算法随机森林、GBDT和XGBoost建立糖尿病预测模型,并比较以上3种方法与单一分类器支持向量机和BP神经网络的分类预测性能.在UCI数据库的早期糖尿病数据集上进行验证试验,使用准确率、精确率、召回率、F1分数和AUC ...  相似文献   

2.
针对传统的特征选择方法在非平衡数据集中分类效果不理想的问题,提出了一种适合非平衡数据分类的改进特征选择方法.该方法将集中度和分散度相结合,同时考虑到在文本长短不一时词频对文本分类的作用,得到一种新的词频归一化方法,实现了对传统特征提取方法的改进.另一方面,将三支决策思想引入到朴素贝叶斯算法,得到了NB-三支决策分类算法,并将该算法应用到非平衡数据集的分类.通过两组实验对比结果表明:改进特征选择方法较CHI和IG方法,处理非平衡度高的数据集分类效果较好;选取相同的特征选择方法和数据集,NB-三支分类器比NB-分类器的分类效果好.选用本文提出的改进特征选择方法和NB-三支分类器,在处理非平衡度高且文本长短不一的数据集时,分类效果有一定提升.  相似文献   

3.
朴素贝叶斯文本分类模型是一种简单而高效的文本分类模型,但是它的独立性假设属性使其无法表示现实世界属性之间的依赖关系,从而影响它的分类性能。这里提出一种改进的基于贝叶斯定理的文本分类模型——“树桩网络(Stump Network)”,并将该方法与朴素贝叶斯文本分类器和TAN(Tree Augmented Naive Bayes)文本分类器进行实验比较,结果表明,在大多数数据集上该文本分类方法具有较高的分类正确率。  相似文献   

4.
随机森林算法随机选择多个决策树构成森林,算法分类结果由这些决策树投票得到,在运算量没有显著增加的前提下提高了预测精度,是一种目前比较流行的组合分类器算法。随机森林算法不仅可以用来做分类,也可用来做回归预测,是机器学习、计算机视觉等领域内应用极为广泛的一个算法。该文将随机森林分类算法用于交通状态判别,利用实测数据进行模型训练和验证,并用袋外数据计算判别正确率,实验结果表明该方法具有可行性,为交通状态判别提供了一种新思路。  相似文献   

5.
特征-决策层多分类器融合的知识发现方法   总被引:1,自引:0,他引:1  
为进一步提高多分类器系统的分类性能,提出了一种基于知识发现的特征决策层多分类器融合新方法.各分类器工作于具有互补分类信息的不同特征空间且其类型由不同的类间可分性度量决定.各分类器输出的不确定性度量从建立的多个决策表中导出,并具有条件mass函数的形式.进而基于广义粗集模型和Dempster-Shafer理论(DST)构造了一种新颖的特征决策层融合框架.高光谱遥感图像的分类实验表明,与多数表决融合(PV)相比,所提出的方法可有效提高多分类器系统的分类性能.  相似文献   

6.
不平衡数据在各个应用领域普遍存在。在处理不平衡数据时,破坏原始数据的分布特点和丢弃多数类样本的潜在信息都会降低分类精度,为此,提出一种不平衡数据集成分类方法。从多数类样本中依据计算得到的综合权重进行随机采样,并与少数类样本组成新的训练样本子集|为了保证基分类器的差异性,将投影得到的不同样本子集作为各个基分类器的训练样本,通过多分类器集成学习获得最终分类结果|在UCI数据集下进行实验。结果表明,该方法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类精度。  相似文献   

7.
基于在线学习行为预测学生成绩可以辅助教师动态掌握学情,制定差异化的教学策略,然而在混合课程中仅仅依据在线数据对学生成绩迸行预测难度很大,尚处于探索中.文章选取某高校2018秋季学期和2020春季学期的"高活跃型混合课程"学生在线行为数据,采用增量学习的随机森林算法构建学生成绩预测模型,研究发现:(1)增量学习随机森林算法在混合课程样本最多的数据集中,获得预测结果准确率最高(75.1%);(2)相较于批量学习随机森林算法,增量学习算法在数据样本量较多的数据集中预测结果准确率更高;(3)当样本数量达到一定规模后,预测结果准确率波动减小、稳定性增强.本研究采用增量学习随机森林算法预测混合课程中的学生成绩,不仅取得了较好的预测准确率,而且解决了新增数据后模型的稳定性问题,将有助于模型的迭代优化,提高模型的通用性,以及可持续追踪学生在不同学期的学习行为特征.  相似文献   

8.
为了提升不平衡数据中少数类的分类精度,利用SMOTE采样方法对数据集进行平衡化预处理;为了减轻样本重新合成过程中产生的类重叠和噪声对分类精度的影响,选择模糊粗糙最近邻算法(FRNN)作为分类器。在14个不平衡数据集上进行的仿真实验表明,该方法具有较好的分类表现,F值和G值最高分别可达0.965、0.932,是一种适用于不平衡率偏高数据集的分类方法。  相似文献   

9.
为降低经济指标众多及外部因素给经济预测准确度带来的影响,有效提高区域经济预测性能,借助元学习算法的小样本分析优势,提高随机森林算法的适用性,实现区域经济预测。根据区域经济统计数据选取多个数据样本,构建随机森林算法的经济预测模型,通过多个弱分类器投票获得经济预测结果;考虑弱分类器权重数量较少,借助元学习算法对权重进行优化;采用优化的随机森林算法模型完成区域经济预测,并选取中等城市和区不同数量规模的经济样本进行多个经济指标预测仿真。结果表明,经过元学习优化后,随机森林算法在区域生产总值、进口额增长率和居民消费价格指数等方面的预测误差率均有大幅下降,元学习对随机森林算法的优化效果显著。  相似文献   

10.
学生学业预警对于学生在校期间起着重要的监督作用,对于保障学生顺利完成学业有重要意义.目前学校应用数据量井喷式增长,学习规模不断扩大,大部分学习采用小数据进行建模预测,其预测错误明显高于基于大规模的模型.逐渐凸显出增量学习算法在优化训练过程、提升预测精确度上的优势.选取了优秀的增量学习算法,进行较为准确的学生学业综合测评情况,根据模型评估结果进行学业预警提示.在已知的学生数据集上,采用线性回归模型作为预测模型,较好地完成了学业预警系统模型设计.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号