共查询到20条相似文献,搜索用时 328 毫秒
1.
为提高压力管道数据存储性能,改善数据存储效率,增强压力管道后期的可维护性,构建一种基于Hadoop的压力管道数据存储系统.该系统利用HDFS分布式存储框架建立压力管道数据的存储模型,采用MapReduce对压力管道海量数据进行分析和处理,从而完成数据写入HBase数据库的低延迟响应.在实验中,采用压力管道数据对MySQL、Oracle、Spark SQL、MongoDB和Rasdaman进行性能对比.结果表明,在相同数据量的情况下,系统运行时间更短,占用内存更少,其在存储压力管道海量数据方面具有较好的优越性. 相似文献
2.
SQL语言不能直接对数据仓库中的非关系型数据库进行操作,为了适应SQL专业分析人员的操作习惯和简化大数据分析方法,SQL on Hadoop技术孕育而生,其典型技术是Hadoop中的Hive。通过实例探讨Hive及Hive2.0技术。 相似文献
3.
刘斌 《安徽科技学院学报》2017,31(4)
针对Apache web服务器集群产生的海量日志记录进行数据分析,使用Flume-ng从web服务器集群收集日志文件,利用Hadoop云平台的HDFS进行分布式日志数据存储,以MapReduce为日志数据分析编程框架,设计实现了一个web日志分析系统,论文阐述了系统的结构、设计思想和实现方法。 相似文献
4.
互联网的迅速发展产生了各种海量数据,快速有效处理海量数据是云计算的目标。Hadoop作为典型的云计算平台可高效处理海量数据。介绍了Hadoop相关概念,包括HDFS、MapReduce等众多子项目;阐述了Hadoop完全分布式平台搭建,包括环境配置、搭建方法等;通过数据处理实验验证了Hadoop分布式平台的有效性。 相似文献
5.
周建华 《西安文理学院学报》2014,(4):75-81
海量数据给微博舆情实时监控预警带来了严峻的挑战,将Hadoop关键技术引入微博舆情分析研究领域,以探寻分布式环境下的高效率短文本数据查询与推理方法,以微博数据结构为基础,结合云计算Hadoop关键技术特性,提出了一种海量微博数据分析预警框架.HDFS为海量微博的数据提供了存储,而MapReduce为海量微博的数据提供快速运算.采用Map(映射)和Reduce(规约)规则,对微博用户关系和内容数据的大规模数据集进行并行运算,以实现并行化高效预处理、深度分析和舆情实时五级预警.为验证计算效率与Reduce任务数之间关系,对Reduce任务数进行实验,结果表明,在Map一定的情况下,随微博数据集的增大到2 GB后,多任务数Reduce执行时间相比少任务数Reduce大大缩短. 相似文献
6.
Hadoop是实现云计算事实标准的开源软件,它包含数十个具有生命力的子项目,构造的数据集群能在数千个节点上运行,处理的数据量和排序时间不断打破世界记录。它的核心为分布式文件系统(HDFS)和 MapReduce 编程模型,能够解决海量数据需求、分析、处理和挖掘及数据的长期保存。可使用大量的廉价PC机通过集群来代替价格昂贵的服务器,使云计算硬件成本大大降低,用户能够按需获取计算力、存储空间和信息服务。 相似文献
7.
提出基于云计算平台(以Hadoop为例)应用布尔矩阵Apriori算法进行大数据关联规则挖掘的MR_B_Apriori算法。将Hadoop平台与布尔矩阵Apriori算法相结合,利用MapReduce框架分块处理布尔矩阵,计算出分块数据的频度,合并融合得到大数据集的频繁项集。分析表明MR_B_Apriori算法能够适用于大数据的频繁项集挖掘。 相似文献
8.
王晓华 《赤峰学院学报(自然科学版)》2013,(19):20-21
MapReduce是Hadoop核心处理程序,但是目前软件界更多是对MapReduce程序的编写.而对其测试方法还是空白,依旧使用的是基于just为基础的测试插件.而JUnit是为了软件进行单机测试而诞生的一种测试插件.其对分布式测试的支持性很差.同时由于其天生的狭隘性,对大规模数据进行测试根本是不可能进行.本文利用Hadoop自带的抽象类.通过欺骗注入,给Hadoop设计一种通过营造一个运行在单机上的伪集群环境模型,从而使得MapReduce在不借助外部其他插件支持的情况下可以独立完成全部运行并将结果输出在本地磁盘空间. 相似文献
9.
针对信息化时代海量数据的问题,神秘大象——hadoop的出现给云计算领域带来了新的浪潮。针对hadoop框架,采用基于Hadoop的子项目Hive对其性能进行测试,并总结了决定MapReduce分布式计算性能的因素。 相似文献
10.
Hadoop分布式文件系统在大规模存储和访问中具有广阔的应用空间。从基本概念、基本结构、元数据管理、数据存储、文件管理、数据容错6个方面对HDFS的实现原理进行了探究,可为HDFS应用研究奠定基础。 相似文献
11.
《实验室研究与探索》2019,(12)
随着云计算应用技术及相关研究的发展,云编程模式也有了新的技术革新。在高校校园网实验教学体系中,云平台的相关实验已经成为大数据分析等课程配套实验的主要内容。使用HDFS架构,搭建稳定、实用、符合实验课程体系的大数据实验平台,成为高校校园网实验研究的新课题。选用开源云计算平台Hadoop,作为基础平台进行大数据分析实验,搭建基本的实验平台,进行数据处理平台的优化处理。通过HDFS为分布式计算存储提供底层应用支持,实现NameNode和DataNode的通信,将用户通过数据块的方式将文件存储到节点中,及时处理客户端的读写请求,并在NameNode的统一调度下进行数据块的创建、删除、复制和映射。根据具体的实验方法,有针对性的制定实验流程。 相似文献
12.
13.
14.
15.
16.
为提高BP神经网络算法的运行效率,利用遗传算法和并行编程思想,提出了Hadoop平台下基于MapReduce的遗传算法优化BP神经网络的并行化设计及实现方法。利用遗传算法优化BP神经网络的初始权值和阈值,提高算法分类准确率;采用MapReduce并行编程模型实现算法的并行化处理,解决BP神经网络在处理大规模样本数据集时存在的硬件开销和通信开销大的问题。选用Caltech256图像数据集,与传统的串行遗传算法优化BP神经网络算法实验对比,验证了并行化GA BP神经网络算法的优越性。 相似文献
17.
在陶瓷行业信息聚合网站的基础上,通过Web日志分析可以获取网站用户的访问情况,但是随着Web服务器上日志的剧增,在单机上运行日志分析或挖掘程序变得越来越不可行。采用Hadoop并行计算平台对日志进行预处理,然后对页面访问量、用户访问量、网站流量等指标进行统计,还应用Apriori算法对日志进行挖掘,对群集在不同节点数、不同数据集以及不同最小支持度的情形下的性能进行比较。实验结果表明,在Hadoop平台上,随着集群节点的增加,大数据集处理性能会得到较大提升。应用Hadoop 平台构建的日志分析平台可以为陶瓷行业信息聚合平台的管理者提供各种有价值的信息。 相似文献
18.
19.
教学信息化的发展,预示着数字化教学资源大数据时代的到来。面对海量数字化资源,利用分布式处理技术从资源的大小出发,设计了针对大文件资源的HDFS存储方案和小文件资源的DFS存储方案。详细分析了HDFS和DFS的工作原理,介绍了针对大文件和小文件资源的存储方案,并在教学实践中分别分析了其文件传输速率,证实了存储方案设计的可用性。 相似文献
20.
《洛阳师范学院学报》2017,(5):56-59
文章分析了高职院校教育资源的现状和面临的问题,介绍了云存储的结构模型和优势,提出了一种基于云存储的数据存储方案.该方案采用Hadoop云平台,将HDFS与现有高职院校教育云平台相结合,有效解决了教育资源云平台上海量数据的存储问题. 相似文献