Spark 2.0平台在大数据处理中的应用研究 |
| |
引用本文: | 周显春,肖衡.Spark 2.0平台在大数据处理中的应用研究[J].教育技术导刊,2017,16(5):149-151. |
| |
作者姓名: | 周显春 肖衡 |
| |
作者单位: | 三亚学院 信息与智能工程学院,海南 三亚 572022 |
| |
摘 要: | Spark分布式框架具有利用数据集内存缓存、启动任务的低迟延、迭代类运算、实时计算的支持和强大的函数式编程接口等特征。描述Spark 集群环境的搭建过程,将Spark 应用到预测森林植被中,对基于RDD和基于Data Frame接口的Spark随机森林算法的性能差异进行比较。实验结果表明,基于Dataset结构的随机森林法预测效果好、执行时间短,可以广泛使用。
|
关 键 词: | Spark 2.0 随机森林算法 Dataset 集群环境 |
|
| 点击此处可从《教育技术导刊》浏览原始摘要信息 |
| 点击此处可从《教育技术导刊》下载免费的PDF全文 |
|