共查询到10条相似文献,搜索用时 15 毫秒
1.
传统Slope One算法未考虑用户相似性和项目相似性对评分效果的影响,从而导致推荐准确率不高,并且在当前大数据背景下,传统Slope One算法运行效率低下。针对以上问题,提出一种基于Spark的改进加权Slope One算法,该算法融入了相似性计算、活跃用户筛选和用户聚类等技术,并在Spark平台上实现了并行化。通过在MovieLens数据集上进行试验验证,并比较算法在Spark和Hadoop平台并行化的运行效率,证实了该算法可以有效降低MAE,且在Spark平台下运行效率更高,更适用于大数据处理场景。 相似文献
2.
随着数据挖掘逐渐被应用到金融、娱乐、商业和医疗等多个行业,近年来涌现出各种用于处理海量数据的数据处理引擎,如MapReduce、Spark等。为了使高校实验室更深入地进行数据挖掘领域的理论研究,简要阐述分析了Spark技术及HDFS的概念与基本原理,详细介绍了基于Spark的云计算平台配置方法和实现过程,并对平台搭建过程中遇到的问题进行总结。实验结果证明,该平台能够有效完成分布式数据处理任务。 相似文献
3.
大数据环境下,传统的数据处理方式不再适用,以云计算技术为支撑的大数据处理平台应运而生。比较了开源Hadoop和Spark平台各自的优缺点,发现各自的适用范围:Hadoop适用于数据密集型任务,并广泛应用于离线分析;Spark因其基于内存计算,在迭代计算和实时分析领域占据优势。二者在功能上有较强的互补性,协同使用可以发挥更大效益。 相似文献
4.
分布式内存计算平台Spark是海量数据处理领域的最新技术进展。动态资源分配下Spark可根据应用的负载情况动态地追增、关闭任务执行器。然而,关闭任务执行器会造成缓存数据丢失,导致不必要的重计算开销,该情况在Spark交互式数据查询应用中尤为常见。为尽量减少任务执行器关闭以提升查询效率,设计实现一种基于预测的Spark动态资源分配策略。该策略基于马尔科夫理论构建Spark交互式数据查询应用的非活跃期持续时间预测模型,并依据预测结果确定任务执行器的关闭时机。试验结果表明,相比既有的Spark动态资源分配策略,采用基于预测的资源分配策略可使Spark交互式数据查询效率平均提升59.34%。 相似文献
5.
郑天甫 《江西电力职业技术学院学报》2022,35(1):15-17,26
基于Storm集群数据处理架构、Spark内存批处理技术,建立风电机组传动系统、齿轮箱的故障诊断与预警模型,运用Spark并行计算的RDD-NB(分布式数据集)算法、RDD-BP(反向传播)算法,分别对风电机组系统的执行做出故障诊断和故障预警,实验结果得出,该方案可自动计算机组运行状态的特征值,将多种特征值进行逻辑组合... 相似文献
6.
结合最新的并行计算技术,基于VS2012搭建了Open MP、MPI、C++AMP、CUDA 6.0等四个并行实验平台,并对不同实验平台实现PI值计算。实验结果说明这种并行计算环境具有良好的性能与可扩展性;Open MP与MPI等CPU计算加速效果与CPU内核数目成比例,C++AMP与CUDA 6.0等GPU计算加速效果与GPU物理计算核心数目成正比;同等条件下GPU物理计算核心数目远多于CPU核心数目,用GPU进行计算往往可获得更高的性价比。 相似文献
7.
《实验室研究与探索》2017,(12):125-128
近年来,伴随着深度学习方法在人工智能领域中的广泛应用,在校级高性能计算平台上也产生了越来越多人工智能领域应用的计算需求。上海交通大学的超级计算机π充分利用GPU加速卡的硬件资源,率先在校级高性能计算平台上部署了多款主流深度学习软件框架,如TensorFlow等,向校内用户提供面向深度学习应用的计算服务。将阐述在传统高性能计算平台上部署深度学习软件框架的探索与实践,并通过对图像识别领域Inception模型的训练实验,验证目前校级高性能计算平台对深度学习应用的支持效果。实验结果显示,交大π超算的模型训练性能与目前最新NVIDIA Minsky GPU工作站上的性能相当,可以充分支撑校内深度学习相关应用。 相似文献
8.
针对协同过滤算法处理大数据流时响应慢的缺陷,在改善推荐准确度的情况下,提出增量更新算法以加快响应速度,提高推荐系统性能。介绍了当前协同过滤算法以及KNN和Spark的相关知识,阐述了协同过滤算法的增量模型。采用Group Lens网站提供的Movie Lens数据集作为实验数据,应用Socket模拟流和Spark并行计算技术实现增量模型。实验结果显示,在保证推荐准确度的前提下,响应时间明显缩短,说明增量模型适合实时处理大数据流,可缓解数据处理不及时问题。 相似文献
9.