基于Spark平台的热点话题发现算法并行化研究 |
| |
引用本文: | 王新星.基于Spark平台的热点话题发现算法并行化研究[J].教育技术导刊,2016,15(9):51-54. |
| |
作者姓名: | 王新星 |
| |
作者单位: | 西安工程大学 计算机科学学院,陕西 西安 710048 |
| |
摘 要: | 话题发现中最常用的方法是基于增量式的Single Pass聚类算法,但是其依赖于文档的输入顺序且效率低下。针对这两个问题,提出在多层次话题发现基础上,基于Spark平台的算法并行化,将传统的Kernel K means算法进行并行化处理,以并行化的方式对数据进行初步聚类,并对后续数据进行增量式聚类。实验表明,多层次处理提高了话题的准确性;同时,并行化方式相比传统的话题发现方法,其效率有较大提高。
|
关 键 词: | 话题发现 Single Pass Spark平台 Kernel K-means算法 |
|
| 点击此处可从《教育技术导刊》浏览原始摘要信息 |
| 点击此处可从《教育技术导刊》下载免费的PDF全文 |
|