首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
ID3决策树算法是数据挖掘中最常用的一种方法,但其存在多值偏向性等问题,文中根据相似性原理,引进属性趋近度概念,以描述属性和决策分类属性的分类样本数的趋近程度确定测试属性,构建决策树,并对ID3算法和改进算法T_ID3算法的多值偏向性问题和测试预测率进行了理论和实验的验证。  相似文献   

2.
对海量数据的处理能力是数据挖掘最关注的问题。决策树作为一种分类器,是数据挖掘中用到的一种基本方法之一。基于C4.5的决策树改进算法,是在一些典型的决策树分类算法的基础上提出的,基本思想是在建树过程中,用属性依赖度替代信息增益率来确定划分条件属性的顺序。该算法借鉴MedGen算法的阈值设定方法,在简化决策树剪枝和优化过程的同时,可优化C4.5算法中使用信息熵率的时间复杂度,避免了使用信息熵带来的不当划分。简述了该改进算法的执行过程,证明了算法的正确性。  相似文献   

3.
决策树分类算法是数据挖掘中一个重要的内容,而ID3算法又是决策树分类算法中的一种重要方法且被广泛应用。然而在实际应用过程中,现存的决策树算法也存在着很多不足之处,如计算效率低下、多值偏向等。为了解决这些问题,提出了一种基于ID3算法的加权简化信息熵算法,它提高了决策树的构建速度,减少了算法的计算运行时间,同时也克服了ID3算法往往偏向于选择取值较多的属性作为测试属性的缺陷。并且随着数据规模的增大,决策树的分类性能表现得越好。  相似文献   

4.
《科技风》2020,(5)
网络是把双刃剑,对学生来说有利也有弊。为了制定合理的管理措施,督促大学生及时规范自己的网络行为。该研究重点研究了数据挖掘算法的选择,最后选择决策树、关联规则、预测分析对学生上网行为中的重要数据进行挖掘,实现大数据网络行为属性与学生学习成绩之间相关属性分析。结果显示,在"流量数据"中,"上网时间长度长"无疑是导致在校学生正常学习水平差的罪魁祸首。研究结果:相当差的算法是逻辑关联回归,相对比逻辑回归好一点的是决策树挖掘算法,最优秀的数逻辑关联性和规则数据挖掘算法。  相似文献   

5.
针对传统的异常信息流检测方法的不足,设计了一个异常信息流检测模型,该模型采用了数据挖掘中的决策树算法对信息流进行归纳分类,采用信息增益作为分类属性选择标准来构造规则决策树,针对网络流量进行分析,能提高检测速度.开辟了一条检测异常信息流的新途径.  相似文献   

6.
石东贤 《科技风》2012,(2):277-278
旅游景点信用评估是一种典型的分类问题,本文概述了粗糙集和决策树的理论,基于这两种理论,提出了一个基于数据挖掘粗糙集理论与决策树分类技术相结合的信用评估方法来建立旅行景点的信用评估模型,利用粗糙集的知识约简的概念,对样本数据进行预处理,去除冗余属性对分类模型的影响,然后用决策树方法建立分类模型。最后通过Pawlak重要度的属性约简算法和ID3决策树算法实现了该模型。  相似文献   

7.
针对C4.5算法在构建决策树过程中将条件属性与决策属性之间的信息增益率作为选择分裂属性的标准,而未考虑条件属性间相关性对结果影响这一缺点,提出了一种修正信息增益率的改进算法。首先计算当前分裂属性与各个条件特征间的平均信息增益,将其作为计算修正信息增益率的影响因素之一;然后使用高等数学中Taylor中值定理和Maclaurin公式的近似式,对修正后的信息增益率公式进行去除对数化简。将改进后的算法分别同原始算法和其他优化算法进行仿真实验,对比结果表明,本文改进后的C4.5决策树算法既提高了平均分类准确率,同时又提高了算法运行效率。  相似文献   

8.
文章对竞争对手识别的本质进行了分析,认为竞争对手识别是一个动态分类过程,指出该过程有3个难点.现有的竞争对手识别方法存在3个缺陷,因而无法有效地支持竞争对手识别过程.认为数据挖掘决策树算法可以应用于竞争对手识别,并详细描述了应用的过程,包括以下4个步骤:竞争对手属性选择、竞争对手数据准备、竞争对手数据预处理和建立竞争对手识别决策树.  相似文献   

9.
决策树方法因其简单、直观、准确率高等特点在数据挖掘及数据分析中得到了广泛的应用。介绍了决策树中最基本的算法——ID3算法的一般知识后,根据实例深入分析了该算法的设计思想、程序实现及优缺点,并针对其缺点进行改进。  相似文献   

10.
以当前高职商务英语实践教学中人才与实际需求无法对接、培养目标模糊、校企合作不够深以及教学制度不规范等问题为着眼点,设计了一种以改进ID3决策树为基础的高职商务英语时间教学成效评价模型,并以ID3决策树算法为基础,优化了数据集的属性选择和信息增益。站门的仿真实验结果表明,本文设计的改进算法在很大程度上降低了元算法的运算开销。之后又借助改进模型对某高职院校进行了评定,以实例评定结果为依据进行了改进策略的设计,包括实践教学目标体系、实践教学内容体系、实践教学管理和评价体系等等。  相似文献   

11.
决策树是一种有效的数据分类方法。粗糙集理论把知识和分类紧密联系起来,为处理不精确、不完全数据的分类问题提供了一种更符合人类认知的数学工具。提出了把后继节点的变精度加权平均粗糙度和值作为属性选择标准构造决策树的改进新算法。新算法用变精度代替近似精度,能有效地克服噪声数据在构造决策树过程中对刻画精度的影响,使生成的决策树复杂性降低,泛化能力更强。  相似文献   

12.
通过探讨数据挖掘决策树技术,提出构建决策树的过程,并基于C4.5算法,对数据挖掘在客户获取中的应用进行实例分析,验证其可行性.  相似文献   

13.
针对标准ID3算法在数据规则挖掘的应用中还存在运算时间长、规则挖掘效果不好等问题。本文提出了一种基于属性增益优化ID3算法的体育训练数据规则挖掘模型,首先利用凸函数的性质来改进信息量公式,通过对数据集中属性选择标准的改变从而降低决策树的计算成本,减少决策树的生成时间,之后计算取值较多且不重要的属性信息时,将经验知识度参数引入从而避免取值少的属性被抛弃。此后又进行了专门的仿真实验,实验结果表明,与传统的算法相比,本文设计的经过改进的ID3算法在建树时间和规则数目这两个方面都具有更好的性能。  相似文献   

14.
决策树算法是数据挖掘中一个重要的内容,但是在实际应用过程中,现存的多种决策树算法也存在着很多不足之处。本文总结并分析了近年来数据挖掘技术在决策树算法方面的研究,探讨了进一步的研究发展方向。  相似文献   

15.
介绍了数据挖掘与决策树算法的一些基本概念,然后对最经典也得到最广泛应用的ID3算法及其改进算法作了详细介绍,在最后给出了该算法的一些数据结构和实现代码。  相似文献   

16.
李丹  车国海 《大众科技》2008,15(4):13-15
在现有的网格和数据挖掘技术基础上,研究OGSA面向服务的体系结构,建立了网格平台下的分布式数据挖掘系统模型。基于该模型。对经典关联规则算法FP—tree算法作了改进,提出分布式频繁模式挖掘算法,并对该模型和算法进行了分析、测试、和评估。  相似文献   

17.
运用分类数据挖掘技术中决策树算法和神经网络算法,建立适合地面战场复杂背景下的情报数据分类算法模型,并将该算法模型运用于情报分析系统,对实现目标情报分析处理的自动化进行了有益的探讨.  相似文献   

18.
客户流失是电信业普遍存在的问题。本文基于数据挖掘技术,构建了一个电信客户预警模型,该模型旨在提取了客户流失的重要属性和决策树的改进。最后通过实例验证该模型是有效的、可行的。  相似文献   

19.
目的:研究数据挖掘算法对乳腺肿瘤超声图像特征的属性选择优化,探讨适用于乳腺肿瘤良恶性分类的数据挖掘分类算法。方法:对乳腺肿瘤超声图像进行预处理,获取病灶区形状,提取病灶区图像形态、形状、纹理特征。应用数据挖掘算法进行图像特征属性选择,形成优化的乳腺肿瘤超声图像混合特征。应用分类算法评价其分类性能,筛选适用于乳腺肿瘤良恶性判定的数据挖掘分类算法。结果:利用混合特征结合随机森林算法对图像进行分类,其ROC曲线下面积AUC为0.7914,平均查准率达到了79%。结论:属性选择优化后的混合特征对乳腺肿瘤良恶性分类性能高于其他特征。在混合特征条件下,随机森林分类算法性能与Bayes网络相近,分类准确率高且性能稳定,更适于乳腺肿瘤良恶性分类评价。  相似文献   

20.
随着计算机技术的迅猛发展,数据挖掘技术越来越受到世界的关注。从数据挖掘的概念出发,介绍了数据挖掘的对象、功能及其挖掘过程,结合数据挖掘的几种常见挖掘算法:决策树法、关联规则法和神经网络法等,对其主要思想及其改进做了相关描述;总结了国内外数据挖掘的研究现状和应用,指出了数据挖掘的发展趋势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号