首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
对海量数据的处理能力是数据挖掘最关注的问题。决策树作为一种分类器,是数据挖掘中用到的一种基本方法之一。基于C4.5的决策树改进算法,是在一些典型的决策树分类算法的基础上提出的,基本思想是在建树过程中,用属性依赖度替代信息增益率来确定划分条件属性的顺序。该算法借鉴MedGen算法的阈值设定方法,在简化决策树剪枝和优化过程的同时,可优化C4.5算法中使用信息熵率的时间复杂度,避免了使用信息熵带来的不当划分。简述了该改进算法的执行过程,证明了算法的正确性。  相似文献   

2.
针对决策树算法C4.5在处理数据挖掘分类问题中出现的算法低效以及过拟合问题,提出一种改进的TM-C4.5算法。该算法主要改进了C4.5算法的分支和剪枝策略。首先,将升序排序后的属性按照边界定理,得出分割类别可能分布的切点,比较各点的信息增益和通过贝叶斯分类器得到的概率,使用条件判断确定最佳分割阈值;其次,使用简化的CCP(Cost-Complexity Pruning)方法和评价标准,对已生成决策树的子树根节点计算其表面误差率增益值和S值,从而判断是否删除决策树节点和分支。实验结果表明,用该算法生成的决策树进行分类更为精确、合理,表明TM-C4.5算法有效。  相似文献   

3.
介绍了一种一般情况下的C4.5数据挖掘算法的优化方法。原来的C4.5算法在计算属性信息增益率时需要大量用到对数运算,而优化后的C4.5算法计算属性信息增益率时只需用到加减乘除运算,在实现时不用频繁调用对数函数,优化后的算法不会改变属性信息增益率的排序,不改变生成的决策树。改进后的算法能做到在不改变准确率和不增加空间复杂度的情况下,减少时间复杂度,提高了决策树生成效率。  相似文献   

4.
谢秋华 《三明学院学报》2012,29(4):34-39,100
介绍了一种C4.5算法的改进方法,即在计算属性信息增益率时只用到加减乘除运算,而不是像C4.5那样的大量用到对数运算。实验表明,改进的C4.5算法在不改变模型预测准确率的同时,减少了计算时间,提高了决策树的生成效率,而后将改进的C4.5算法作用于《大学计算机基础》课程的成绩分析,得到的分析结果用于辅助指导教师对《大学计算机基础》课程的教学工作,能够更好地促进教学,提高学生对此门课程的掌握程度和为普及计算机做出帮助。  相似文献   

5.
车辆加速性能是衡量驾驶员对车辆驾驶舒适性的一个标准。传统的车辆加速性能是通过判断加速踏板开度衡量的,加速踏板出厂时设置为不能自动调整。采用改进的C4.5算法对车辆加速性能分类,实现自动调整加速踏板开度。首先通过泰勒中值定理对C4.5算法进行简化,然后对车联网数据进行特征提取,生成判断加速性能的决策树分类规则,测试特征提取的并行化运行效率。通过特征提取后的数据集验证了改进的C4.5算法效率和准确率。测试结果表明,改进算法在不降低分类准确率的前提下,有效提高了分类效率。  相似文献   

6.
为满足车辆检测实时性和准确性需求,将基于C4.5的决策树算法作为AdaBoost算法的弱分类器,产生一种速度快、识别率高的强分类器,称之为AdaBoost DT算法。算法训练多个决策树并将之作为弱分类器,之后通过改进级联架构的AdaBoost算法将若干弱分类器组合成一个强分类器。该算法特点在于:相对于广泛使用的以SVM作为弱分类器的算法,其以决策树作为分类器,速度提高了29%;通过在AdaBoost算法进行强分类器的形成阶段加入再判决函数,准确率提高了14.1%。  相似文献   

7.
决策树是归纳学习和数据挖掘的重要方法,通常用来形成分类器和预测模型。对网络课程知识点个性化设计中的大量数据,运用数据挖掘算法中的决策树C4.5算法对所给数据进行处理,选取决策属性,构造决策树,提取分类规则,获取每一个知识点与不同类型的学生之间的关系。通过实验仿真发现,C4.5决策树算法取得了较为理想的分类预测效果。  相似文献   

8.
为提高我校医用物理实验报告的质量,本文运用数据挖掘决策树C4.5算法对实验报告进行处理分析,找出影响实验报告质量的关键因素,建立决策树模型,提出改善的办法.  相似文献   

9.
决策树算法是数据挖掘中的一种经典算法,常用的决策树算法有ID3算法、C4.5算法等.分析了ID3算法在应用中的优缺点,并对其进行了简单改进,即将复杂的计算公式转化为只含有加、减、乘、除的简单式子.在此基础上将其应用于大学公共体育教学质量评价中,找出了影响教师评价结果的重要因素,为科学评价教学提供了思路.  相似文献   

10.
决策树是数据挖掘中重要的分类算法,通常用来形成分类器.ID3算法是决策树中的核心算法.针对ID3算法倾向于取值较多的属性的缺点,引进属性重要度对ID3算法予以改进,并通过实验对改进前后的算法进行了比较.实验表明,改进后的算法是有效的。  相似文献   

11.
文章主要采用数据挖掘技术中的决策树C4.5算法,对本校学生成绩中的大量数据进行处理,从中选取决策属性,构造决策树,并提取分类规则,从而获取不同类型的学生与成绩之间的关系.试验结果表明,C4.5算法能够将数据进行准确分类和预测,最终得到有价值的结论,供教师决策分析.  相似文献   

12.
针对医用物理学实验课的教学现状进行了问卷调查,应用决策树C4.5算法对问卷的数据进行分析,发现影响教学效果的关键因素、建立决策树模型,为实验教学的改革提供思路和参考.  相似文献   

13.
历年学生就业积累的大量数据信息,运用数据挖掘算法中的C4.5决策树算法对所给数据进行分类和预测。通过实例给出了该算法在高职高专就业工作中的应用,找出影响学生就业的主要因素。  相似文献   

14.
一种代价敏感学习方法在电信业流失预测中的应用   总被引:1,自引:0,他引:1  
根据已有的流失预测方法,提出新的流失预测方法解决数据挖掘中的非对称错分代价问题.该方法以传统C4.5决策树算法为基准分类器,融合代价调整方法实现代价敏感学习.相比之下,C4.5决策树算法仅是基于样本错分代价相同假定,建立了一种错分率最低而非总错分代价最低的预测模型.基于某电信企业的客户数据,及流失客户和非流失客户代价非对称的实际,实证研究结果表明,CS-C4.5通过调整流失类和非流失类样本的比例,大大降低了传统分类算法的样本错分总代价.该方法对于提高电信企业的核心竞争力具有重要的现实意义.  相似文献   

15.
以现有的数据挖掘决策树算法作为理论支撑,从就业数据出发,按照数据挖掘的基本步骤和方法,执行C4.5决策树算法对数据进行分类和预测,从积累的大量数据中得到以就业类别为属性的分类规则,以此为学校领导机构提供决策支持,提高就业水平,对就业指导工作具有一定的现实意义。  相似文献   

16.
为了解决服务器运行过程中由于性能故障造成服务质量下降的问题,提出一种基于决策树的日志分析方法,以服务器日志文件中记录服务器关键性能指标的数据为研究对象,利用决策树中常用的ID3、C4.5和CART 3种算法预测服务器未来性能指标发展趋势。实验结果表明,在实际运行过程中,C4.5算法对服务器性能指标数据预测的准确率和召回率最好,分别达到了92.23%和95.37%,在3种决策树算法中拥有最高的准确率与召回率,且相比传统开发人员从日志文件中寻找故障的方法,准确率提高了20%左右,因此能够更好地预测服务器系统性能指标发展趋势。通过该方法可提前感知系统运行状况,并及时作出调整,从而有效降低实际生产过程中服务器故障发生概率,提高服务质量。  相似文献   

17.
针对国内高职学生首次职业类型选择状况进行了研究,介绍了数据挖掘、决策树、C4.5算法,对高职学生职业类型选择数据进行预处理,应用 C4.5算法构造高职学生首次职业类型选择决策树并使用事后修剪法对其进行了修剪,从中抽取出高职学生首次职业类型选择与大学阶段习得的德、体、智、能和专五个方面能力之间的潜在规则并对其做了验证分析,挖掘出的规则为高职学生首次职业类型选择进行动态预测并对其就业提供指导。  相似文献   

18.
分类技术中的决策树算法分析   总被引:6,自引:0,他引:6  
介绍了解决分类问题的常用方法——决策树。并对决策树的原理及Quinlan的ID3、C4.5两种主要的决策树算法进行了分析。通过分析它们的基本原理以及主要特点,提出了对决策树算法改进的展望。  相似文献   

19.
本文利用决策树算法对保险业务数据进行了客户风险分析,并以重大疾病险种的索赔业务数据为基础,详细介绍了数据预处理过程,针对年龄、地域、收入因素,给出了基于C4.5算法的客户风险分析建模过程。  相似文献   

20.
利用数据挖掘技术研究高职院校学生成绩的影响因素,对高职学生成绩管理具有重要意义。决策树法是数据挖掘的主要技术和方法,利用决策树C4.5算法系统研究了我校信息工程学院二年级学生成绩影响因素,建立了影响学生成绩的决策树模型,使学校有针对性的开展学生管理工作。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号