首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
传统Slope One算法未考虑用户相似性和项目相似性对评分效果的影响,从而导致推荐准确率不高,并且在当前大数据背景下,传统Slope One算法运行效率低下。针对以上问题,提出一种基于Spark的改进加权Slope One算法,该算法融入了相似性计算、活跃用户筛选和用户聚类等技术,并在Spark平台上实现了并行化。通过在MovieLens数据集上进行试验验证,并比较算法在Spark和Hadoop平台并行化的运行效率,证实了该算法可以有效降低MAE,且在Spark平台下运行效率更高,更适用于大数据处理场景。  相似文献   

2.
随着人类产生的数据量呈指数级增长,数据的海量、多样化等特征使传统的聚类算法无法处理这些数据,而近来较为流行的Hadoop平台在处理数据的速度上也达到瓶颈。因此,专家们想要研究一种更为适合的处理平台来处理遇到的海量数据,Spark平台应运而生。首先介绍了聚类算法定义与分类,随后提出了Spark平台,包括Spark核心技术(RDD)、Spark和Hadoop的对比,并介绍了K means在Spark平台上的实现,最后总结了Spark的应用现状并对其未来发展进行了展望。  相似文献   

3.
大数据环境下,传统的数据处理方式不再适用,以云计算技术为支撑的大数据处理平台应运而生。比较了开源Hadoop和Spark平台各自的优缺点,发现各自的适用范围:Hadoop适用于数据密集型任务,并广泛应用于离线分析;Spark因其基于内存计算,在迭代计算和实时分析领域占据优势。二者在功能上有较强的互补性,协同使用可以发挥更大效益。  相似文献   

4.
该文介绍了数据挖掘、关联规则、Apriori算法的基本概念,同时基于Microsoft数据库平台 SQL Server 2005,结合BI Development Studio的分析服务功能SSAS,利用Microsoft关联规则数据挖掘算法对招生系统中数据进行数据处理和数据挖掘,从而找出强关联规则,为高校的招生提供参考依据。  相似文献   

5.
分布式内存计算平台Spark是海量数据处理领域的最新技术进展。动态资源分配下Spark可根据应用的负载情况动态地追增、关闭任务执行器。然而,关闭任务执行器会造成缓存数据丢失,导致不必要的重计算开销,该情况在Spark交互式数据查询应用中尤为常见。为尽量减少任务执行器关闭以提升查询效率,设计实现一种基于预测的Spark动态资源分配策略。该策略基于马尔科夫理论构建Spark交互式数据查询应用的非活跃期持续时间预测模型,并依据预测结果确定任务执行器的关闭时机。试验结果表明,相比既有的Spark动态资源分配策略,采用基于预测的资源分配策略可使Spark交互式数据查询效率平均提升59.34%。  相似文献   

6.
介绍云计算的概念及应用,探讨传统数据挖掘方法——分类和聚集方法的基本原理、特点、优缺点及应用范围。根据云计算的并行分布式计算特点,提出与之适应的数据处理方法。借助Google云计算中的分布式数据处理平台,评价云计算下复杂数据形式的数据挖掘方法。  相似文献   

7.
《集宁师专学报》2018,(3):53-57
为了提高数据挖掘平台的数据处理和存储能力以及降低其各功能模块的耦合性,增加扩展性和复用性,提出了一个基于云计算的MVC架构数据挖掘平台设计方案。在此基础上,利用云计算技术,将数据处理依照不同功能分布到多个云端服务器上进行,再整合各个云端服务器上的数据模型形成最终的数据模型。云端服务器通过轮询算法实现了负载均衡。同时,利用MVC实现了平台软件架构的低耦合,高复用,能够更加敏捷地适应业务规则的变化。  相似文献   

8.
在大数据时代,兼顾大数据处理与高性能计算是目前对计算机系统的迫切需求。针对Spark大数据处理与基于GPU的高性能计算,分析了基于GPU的Spark技术。它主要通过构建CPU和GPU的异构并行,使计算机获得强大的计算能力,并在实验室环境下探讨了Spark-GPU技术的实现,阐述了算法实现的技术流程。在此基础上,通过仿真实验评估了Spark和Spark-GPU技术的性能。实验表明,Spark-GPU技术可以达到上百倍的加速比,这对图像处理以及信息检索等领域的发展都具有重要推动作用。  相似文献   

9.
基于Hadoop平台的实时电影推荐系统在需要大量迭代计算时运行速度明显变慢,无法根据用户行为作出实时反馈。针对以上问题,设计基于Spark流式计算的实时电影推荐系统,可更好地满足用户实时需求。基于Spark流式计算的实时电影推荐系统将传统电影推荐算法与Spark流式计算方法相结合,在线部分使用Spark Streaming实时接收用户模拟评分,并使用Scoket编程模拟用户浏览商品时产生的实时日志数据。日志数据包括用户当前浏览电影、观看电影次数、停留时间与是否购买该商品,再使用Spark Streaming构建实时数据处理系统,计算出当前用户相关度最高的电影并进行推荐。实验结果表明,基于Spark 平台的电影实时推荐系统在离线推荐训练过程中,训练速度相对于Hadoop 平台有明显提高,能根据用户行为作出实时反馈,并向用户进行电影推荐。  相似文献   

10.
介绍了一种海洋浮标监测大数据在线获取、存储、处理和可视化实验平台。该平台基于Shiny网页框架进行构建,通过网络爬虫获取美国国家海洋与大气管理局(NOAA)公开的海洋浮标实时监测数据,利用Oracle数据库对数据进行高效存储和管理,进而利用R语言进行数据挖掘和可视化。该实验平台涵盖的上述功能模块有助于学生全面学习海洋浮标监测数据处理的各个流程,学习大数据处理的先进算法。同时,R语言开放的接口可用于嵌入各类新的数据挖掘和处理算法,有助于学生了解数据处理领域的最新算法,提升系统集成能力,进而提升学生的创新能力。  相似文献   

11.
以Spark软件为工具,对电商网站用户行为分析预测系统进行探讨,在此基础上,对一家电商平台进行了一系列的预处理,包括在一定的时间段内,对用户的行为进行处理,提出时间序列规则处理原始数据动态滑动窗口。用户行为分析实验表明,XGBoost的训练模式表现最好,而决策树的学习效果最差。XGBoost模型无需对全部的训练进行集合,是通过XGBoost在每一个滑行窗口内使用XGBoost来输出最后的预测。XGBoost在预测结果正确率、稳定性方面均较好。Spark平台主要由数据读入、RDD的创建、用户行为预测计算三部分构。相比Hadoop平台,基于Spark平台系统效率提高了近8倍,系统运行速度降低幅度较大,减少了电商网站运营成本,Spark平台系统可靠性较高。  相似文献   

12.
Spark是一种新型分布式海量数据处理平台,在应用执行过程中,Spark以任务作为最小执行单元。因此,任务执行时间预测是指导Spark进行性能分析、优化资源调度以及故障监控的基础。在Spark平台中,由于计算数据分布不均及网络资源的共享,导致同样计算逻辑的任务在不同计算节点上执行的时间可能产生很大差异,需根据实时运行环境进行动态预测。通过结合任务在不同节点所需数据量以及集群网络状况,对任务在不同节点的执行时间进行预测。实验表明,该方法对任务进行预估,误差可保证在19%以内,任务执行时间预估算法对Spark调优有一定的指导作用。  相似文献   

13.
数据挖掘技术是随着海量信息时代来临而新生的数据处理技术,网络数据挖掘系统有不少范例,而多数都是侧重与对网络数据信息的挖掘处理,研究数据挖掘系统本身系统结构的较少。本文介绍了一种基于网络的多数据源数据挖掘平台,以Flex技术完成服务器表示层,以Spring实现数据管理构架。  相似文献   

14.
在线教育交互是在线教育研究领域的重要组成部分,云计算和大数据技术的出现及发展为在线教育交互研究提供了新的机遇,对其服务模式与数据处理等方面产生了巨大影响。文章在基于云计算和大数据特征基础上,对在线教育交互所面临的问题进行讨论,并构建在线教育交互平台模型,通通分析平台功能和进行数据挖掘,实现了在线授课者和学习者的高效互动的目的。  相似文献   

15.
针对海量或高维数据进行异常检测实验时,往往检测速度较慢、效率较低。针对此问题,设计了一种基于Spark分布式计算的扩展孤立森林异常检测算法改造实验。实验基于Spark框架,分别在数据抽样、训练、预测等阶段设计并行化改造方法,通过与单核条件下的算法对比,验证了并行化方法在保证准确性的前提下执行效率得到大大提高。此实验对加深学生对大数据分布式并行处理知识的理解,引导其对海量数据挖掘相关技术的学习兴趣具有积极作用。  相似文献   

16.
随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了详细说明并对hadoop和spark的性能进行比较,包括Hadoop和Spark集群的安装和部署,Spark集成开发环境的建立,同一组数据集在两个平台上进行Kmeans聚类的时间对比。对于建设分布式计算平台具有一定的指导意义。  相似文献   

17.
讨论电子商务环境中数据挖掘技术在网站管理分析中的应用。将网络挖掘技术和电子商务进行融合,用一个顾客行为类型的应用挖掘案例为背景,诠释了在数据处理和整合的过程中,不同的数据挖掘算法都要有选择地针对不同的应用而采纳。  相似文献   

18.
Spark分布式框架具有利用数据集内存缓存、启动任务的低迟延、迭代类运算、实时计算的支持和强大的函数式编程接口等特征。描述Spark 集群环境的搭建过程,将Spark 应用到预测森林植被中,对基于RDD和基于Data Frame接口的Spark随机森林算法的性能差异进行比较。实验结果表明,基于Dataset结构的随机森林法预测效果好、执行时间短,可以广泛使用。  相似文献   

19.
基于Storm集群数据处理架构、Spark内存批处理技术,建立风电机组传动系统、齿轮箱的故障诊断与预警模型,运用Spark并行计算的RDD-NB(分布式数据集)算法、RDD-BP(反向传播)算法,分别对风电机组系统的执行做出故障诊断和故障预警,实验结果得出,该方案可自动计算机组运行状态的特征值,将多种特征值进行逻辑组合...  相似文献   

20.
该文介绍了复杂工业过程传统研究方法及复杂工业过程数据处理的困难,对如何将数据挖掘应用于工业过程,实现过程建模及优化的一般步骤进行了综述。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号