首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
传统Slope One算法未考虑用户相似性和项目相似性对评分效果的影响,从而导致推荐准确率不高,并且在当前大数据背景下,传统Slope One算法运行效率低下。针对以上问题,提出一种基于Spark的改进加权Slope One算法,该算法融入了相似性计算、活跃用户筛选和用户聚类等技术,并在Spark平台上实现了并行化。通过在MovieLens数据集上进行试验验证,并比较算法在Spark和Hadoop平台并行化的运行效率,证实了该算法可以有效降低MAE,且在Spark平台下运行效率更高,更适用于大数据处理场景。  相似文献   

2.
随着人类产生的数据量呈指数级增长,数据的海量、多样化等特征使传统的聚类算法无法处理这些数据,而近来较为流行的Hadoop平台在处理数据的速度上也达到瓶颈。因此,专家们想要研究一种更为适合的处理平台来处理遇到的海量数据,Spark平台应运而生。首先介绍了聚类算法定义与分类,随后提出了Spark平台,包括Spark核心技术(RDD)、Spark和Hadoop的对比,并介绍了K means在Spark平台上的实现,最后总结了Spark的应用现状并对其未来发展进行了展望。  相似文献   

3.
《实验技术与管理》2019,(11):193-196
该文研究了大数据技术课程实验教学环境的构建。在综合考虑已有实验设备和各种影响因素的条件下,提出在Linux虚拟机下安装Hadoop集群,并安装用Scala编程语言编写的Spark计算框架,从而实现Hadoop+Spark的大数据技术实验教学环境构建方案。该实验环境有助于提升大数据技术课程的理论教学效果,有助于学生更好地掌握分析和处理大数据的关键技术,从而有助于达到培养创新型人才的目标。  相似文献   

4.
基于Hadoop平台的实时电影推荐系统在需要大量迭代计算时运行速度明显变慢,无法根据用户行为作出实时反馈。针对以上问题,设计基于Spark流式计算的实时电影推荐系统,可更好地满足用户实时需求。基于Spark流式计算的实时电影推荐系统将传统电影推荐算法与Spark流式计算方法相结合,在线部分使用Spark Streaming实时接收用户模拟评分,并使用Scoket编程模拟用户浏览商品时产生的实时日志数据。日志数据包括用户当前浏览电影、观看电影次数、停留时间与是否购买该商品,再使用Spark Streaming构建实时数据处理系统,计算出当前用户相关度最高的电影并进行推荐。实验结果表明,基于Spark 平台的电影实时推荐系统在离线推荐训练过程中,训练速度相对于Hadoop 平台有明显提高,能根据用户行为作出实时反馈,并向用户进行电影推荐。  相似文献   

5.
提出基于云计算平台(以Hadoop为例)应用布尔矩阵Apriori算法进行大数据关联规则挖掘的MR_B_Apriori算法。将Hadoop平台与布尔矩阵Apriori算法相结合,利用MapReduce框架分块处理布尔矩阵,计算出分块数据的频度,合并融合得到大数据集的频繁项集。分析表明MR_B_Apriori算法能够适用于大数据的频繁项集挖掘。  相似文献   

6.
随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了详细说明并对hadoop和spark的性能进行比较,包括Hadoop和Spark集群的安装和部署,Spark集成开发环境的建立,同一组数据集在两个平台上进行Kmeans聚类的时间对比。对于建设分布式计算平台具有一定的指导意义。  相似文献   

7.
以Spark软件为工具,对电商网站用户行为分析预测系统进行探讨,在此基础上,对一家电商平台进行了一系列的预处理,包括在一定的时间段内,对用户的行为进行处理,提出时间序列规则处理原始数据动态滑动窗口。用户行为分析实验表明,XGBoost的训练模式表现最好,而决策树的学习效果最差。XGBoost模型无需对全部的训练进行集合,是通过XGBoost在每一个滑行窗口内使用XGBoost来输出最后的预测。XGBoost在预测结果正确率、稳定性方面均较好。Spark平台主要由数据读入、RDD的创建、用户行为预测计算三部分构。相比Hadoop平台,基于Spark平台系统效率提高了近8倍,系统运行速度降低幅度较大,减少了电商网站运营成本,Spark平台系统可靠性较高。  相似文献   

8.
作为深受开发者青睐的主流大数据平台,Hadoop在数据的处理、分析及应用上拥有着其他平台不可比拟的优势。在介绍了大数据定义和Hadoop生态系统架构的基础上,分别对基于Hadoop提出的大数据存储、分析、管理、安全及应用等关键问题的解决方案进行了研究和综述。最后,对基于Hadoop的大数据平台的研究和应用发展方向进行了展望。  相似文献   

9.
Spark是大数据内存计算系统的典型代表,通过内存缓存数据加速迭代型、交互型大数据应用的运行。基于时间窗口的数据分析是一类典型的大数据迭代型应用。基于Spark平台运行时间窗口数据分析应用,存在中间结果数据放置不均的问题,造成应用执行效率降低。针对上述问题,提出基于遗传算法的Spark中间结果数据迁移策略,通过考虑中间结果数据迁移时机、迁移数据规模,并使用遗传算法优化选取迁移数据放置位置,提高时间窗口应用执行效率。实验结果表明,在既有Spark平台中,采用该迁移策略可使时间窗口应用执行时间最大减少28.45%,平均减少21.59%。  相似文献   

10.
为使学生能够亲身体验大数据研究及实践流程,并改进传统数据分析课程相对陈旧的实验内容,文章以该校大数据研究所的研究成果为基础,为学生构建了基于Hadoop的大数据算法库教学实验平台。该平台适用于数据高并发场景,能够适应复杂大数据处理及计算需求。并在平台基础上实现了土地大数据教学案例,通过友好的界面化操作,为学生提供了一套全生命周期的大数据处理解决方案。  相似文献   

11.
本文基于Hadoop平台设计了一个实时数据处理系统,通过对主流实时计算框架的研究,解决了Spark,puma没能解决的数据源主动接入问题.本系统设计主要包括核心计算模块设计、数据接入模块设计和存储模块设计.主要用到的算法包括可靠性机制算法、信号量机制算法、事务性机制算法等.实践结果表明,系统处理效率高且运行稳定.  相似文献   

12.
该文设计了高校大数据云实验室的整体架构。该大数据云实验室以OpenStack云平台架构为基础,通过Docker容器虚拟化方式实现,重点阐述了OpenStack与Docker的集成方案以及Docker镜像制作方法,能为实验教学灵活定制Hadoop、Spark、TensorFlow、Caffe等不同的大数据实验环境。与传统大数据实验室相比,该方案具有部署快速、资源利用充分、投入成本低等特点,是一种有效的高校大数据实验室建设方案。  相似文献   

13.
Hadoop平台是apche下的一个开源大数据平台,具有分布性、虚拟化、高可靠性、高可伸缩性、通用性等特点。Hadoop平台发展至今,集成组件已从1.0发展到2.0。从Hadoop体系结构入手,分析了Hadoop 平台1.0和2.0平台的基准测试性能并进行了对比。研究了testdfsIO、yarn、hive的基准测试,通过对升级后平台的基准测试,分析了2.0的优势,为集成Hadoop平台提供参考。  相似文献   

14.
开发海量数据处理系统时存在技术框架选择不确定问题。从理论及应用角度对两种主流的海量数据处理架构MPP和Hadoop进行对比,分析各自技术特点,阐述其与传统数据处理的优势。分析结果表明,Hadoop在存储数据规模上可轻松支持PB级别,而MPP架构大多只支持TB级别;Hadoop对海量半结构化、非结构化数据存储和处理有一定优势,但在处理速度和易用性上不及MPP;在结构化数据处理、响应性能和衍生工具等方面MPP 则占优,适用于查询业务场景较多项目。通过分析两大框架底层核心技术以及归纳优缺点,为企业相关应用的技术选型提供参考。  相似文献   

15.
信息社会是数据爆炸的时代,分布式并行计算在应对海量数据处理等大作业方面非常有效.Apache基金会下的Hadoop正是这样一个开源的分布式系统基础构架.首先介绍了Hadoop平台下作业的分布式运行机制,然后对Hadoop平台自带的3种任务调度器做分析和比较,最后在分析JobTracker类文件的基础上指出了创建自定义任务调度器所需完成的工作.  相似文献   

16.
Spark是一种新型分布式海量数据处理平台,在应用执行过程中,Spark以任务作为最小执行单元。因此,任务执行时间预测是指导Spark进行性能分析、优化资源调度以及故障监控的基础。在Spark平台中,由于计算数据分布不均及网络资源的共享,导致同样计算逻辑的任务在不同计算节点上执行的时间可能产生很大差异,需根据实时运行环境进行动态预测。通过结合任务在不同节点所需数据量以及集群网络状况,对任务在不同节点的执行时间进行预测。实验表明,该方法对任务进行预估,误差可保证在19%以内,任务执行时间预估算法对Spark调优有一定的指导作用。  相似文献   

17.
大数据时代,对大规模数据的分析和处理提出了更高要求。非负矩阵分解作为一种高效方法被广泛应用于数据降维和特征提取,有效减少了大规模数据的复杂运算,但存在计算过程繁琐的弊端。将分布式平台Hadoop与非负矩阵分解有机结合,利用Hadoop处理大规模数据的并行能力与非负矩阵分解自身的数据降维特点,实现较高的加速比。这种方法能高效完成非负矩阵分解的迭代问题,提高算法的计算效率。  相似文献   

18.
分布式内存计算平台Spark是海量数据处理领域的最新技术进展。动态资源分配下Spark可根据应用的负载情况动态地追增、关闭任务执行器。然而,关闭任务执行器会造成缓存数据丢失,导致不必要的重计算开销,该情况在Spark交互式数据查询应用中尤为常见。为尽量减少任务执行器关闭以提升查询效率,设计实现一种基于预测的Spark动态资源分配策略。该策略基于马尔科夫理论构建Spark交互式数据查询应用的非活跃期持续时间预测模型,并依据预测结果确定任务执行器的关闭时机。试验结果表明,相比既有的Spark动态资源分配策略,采用基于预测的资源分配策略可使Spark交互式数据查询效率平均提升59.34%。  相似文献   

19.
随着信息技术和物联网技术在城市交通领域的广泛应用,城市交通流量数据已经呈现出大数据的诸多特征。采用传统的信息处理技术对交通大数据进行分析时不可避免地遇到了性能瓶颈。基于Hadoop的交通流量统计分析系统可以很好地统计和分析这些数据。通过基于Hadoop的平台对交通流量信息的处理方法展开研究,设计了交通流量统计分析系统,并给出相应研究数据,最后对系统进行仿真并验证系统的可行性与有效性。  相似文献   

20.
目前,越来越多的行业认识到大数据会带来新一轮的革命,而Apache Hadoop项目则是目前大数据平台应用的事实标准。各行业在建设大数据平台时,除功能外,性能指标也是考虑的重要因素。目前大数据平台性能评测工具多样,测试过程耗时、繁琐。鉴于此,讨论建设基于BigDataBench的Hadoop2.5大数据平台性能测试自动化系统,既提高工作效率,又减少人为操作差异化化,实现版本间性能数据自动对比,保证了测试质量和数据准确性。同时对自动化测试工具的演进方向进行了规划。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号