面向不完备数据的改进C4.5算法研究 |
| |
引用本文: | 沈亮亮,蒙祖强,张兵,郭英明.面向不完备数据的改进C4.5算法研究[J].教育技术导刊,2018,17(6):95-99. |
| |
作者姓名: | 沈亮亮 蒙祖强 张兵 郭英明 |
| |
作者单位: | 广西大学 计算机与电子信息学院,广西 南宁 530003 |
| |
摘 要: | 大数据时代,数据量呈现爆炸式增长,且在内容与形式上日益复杂化,造成数据质量下降、数据丢失等,即产生不完备数据。提出一种改进的C4.5算法,使其能更好地处理不完备数据。每次特征选择前对本次特征选择的数据子集使用子集匹配方法进行处理,通过比较数据清洗方法与子集匹配方法的结果,显示即便是在相同清洗规则下,子集匹配方法在算法分类准确率上也更有优势。实验结果证明,在利用C4.5算法进行特征选择时,在该数据子集上对不完备数据进行处理,可以得到较高的分类准确率,同时得到比数据清洗高的时间复杂度。
|
关 键 词: | 不完备数据 C4.5算法 分类算法 |
|
| 点击此处可从《教育技术导刊》浏览原始摘要信息 |
| 点击此处可从《教育技术导刊》下载免费的PDF全文 |
|