K-means聚类算法在Spark平台上的应用 |
| |
引用本文: | 程国建,赵倩倩.K-means聚类算法在Spark平台上的应用[J].教育技术导刊,2016,15(2):146-148. |
| |
作者姓名: | 程国建 赵倩倩 |
| |
作者单位: | 西安石油大学 计算机学院,陕西 西安 710065 |
| |
摘 要: | 随着人类产生的数据量呈指数级增长,数据的海量、多样化等特征使传统的聚类算法无法处理这些数据,而近来较为流行的Hadoop平台在处理数据的速度上也达到瓶颈。因此,专家们想要研究一种更为适合的处理平台来处理遇到的海量数据,Spark平台应运而生。首先介绍了聚类算法定义与分类,随后提出了Spark平台,包括Spark核心技术(RDD)、Spark和Hadoop的对比,并介绍了K means在Spark平台上的实现,最后总结了Spark的应用现状并对其未来发展进行了展望。
|
关 键 词: | 聚类算法 Hadoop Spark RDD K-means算法 |
|
| 点击此处可从《教育技术导刊》浏览原始摘要信息 |
| 点击此处可从《教育技术导刊》下载免费的PDF全文 |
|