首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Spark平台的热点话题发现算法并行化研究
引用本文:王新星.基于Spark平台的热点话题发现算法并行化研究[J].教育技术导刊,2016,15(9):51-54.
作者姓名:王新星
作者单位:西安工程大学 计算机科学学院,陕西 西安 710048
摘    要:话题发现中最常用的方法是基于增量式的Single Pass聚类算法,但是其依赖于文档的输入顺序且效率低下。针对这两个问题,提出在多层次话题发现基础上,基于Spark平台的算法并行化,将传统的Kernel K means算法进行并行化处理,以并行化的方式对数据进行初步聚类,并对后续数据进行增量式聚类。实验表明,多层次处理提高了话题的准确性;同时,并行化方式相比传统的话题发现方法,其效率有较大提高。

关 键 词:话题发现  Single  Pass  Spark平台  Kernel  K-means算法    
点击此处可从《教育技术导刊》浏览原始摘要信息
点击此处可从《教育技术导刊》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号