共查询到20条相似文献,搜索用时 23 毫秒
1.
2.
3.
作为深受开发者青睐的主流大数据平台,Hadoop在数据的处理、分析及应用上拥有着其他平台不可比拟的优势。在介绍了大数据定义和Hadoop生态系统架构的基础上,分别对基于Hadoop提出的大数据存储、分析、管理、安全及应用等关键问题的解决方案进行了研究和综述。最后,对基于Hadoop的大数据平台的研究和应用发展方向进行了展望。 相似文献
4.
在大数据时代,数据高速增长,对数据仓库管理方法和技术提出了全新挑战,为实现仓储资源优化配置,提高资源使用效率,首次把数据半衰期运用于数据仓库分级存储。传统固定阈值转存策略存在存储资源配置不合理的问题,利用半衰期分级存储策略,对每个数据对象进行计算分析后转存,采用MPP数据仓库和Hadoop构建混合数据仓库存储架构,解决了大数据背景下的数据存储与分析,实现了数据仓库管理方法和数据存储架构的创新。实际验证发现,数据半衰期转存策略优于固定阈值转存策略,证明数据半衰期在数据仓库的管理中有显著应用价值。 相似文献
5.
智慧校园是信息化技术发展的必然产物,将大数据技术应用于高校的信息化建设是实现决策型智慧校园的关键.依据《慧校园总体框架》和智慧城市建设参考模型将决策型智慧校园系统架构设计为数据采集层、网络通信层、计算存储层、数据服务支撑层和智慧应用层,同时讨论系统中大数据的类型和分布式数据库的优势及利用MPP、Hadoop混合模式存储大数据的设计,通过研究设计一种新的决策型智慧校园架构,为决策型智慧校园的建设提供依据. 相似文献
6.
7.
8.
为建设友好共享的民政数据仓库,实现基础数据集聚化,满足大数据服务大民生的需求,提出了民政云解决方案总体架构。在民政云架构下采用Hadoop+MPP混搭方式构建动态数据中心,通过连接器和外部表两种方式实现Hadoop和不同数据库之间的数据同步和调用;通过统一的语言或服务接口实现上层应用对底层数据的透明访问,有效解决民政系统内部纵向数据与其它部门横向数据的实时交换,为民政公共服务信息平台提供全面、权威的数据。 相似文献
9.
为提高压力管道数据存储性能,改善数据存储效率,增强压力管道后期的可维护性,构建一种基于Hadoop的压力管道数据存储系统.该系统利用HDFS分布式存储框架建立压力管道数据的存储模型,采用MapReduce对压力管道海量数据进行分析和处理,从而完成数据写入HBase数据库的低延迟响应.在实验中,采用压力管道数据对MySQL、Oracle、Spark SQL、MongoDB和Rasdaman进行性能对比.结果表明,在相同数据量的情况下,系统运行时间更短,占用内存更少,其在存储压力管道海量数据方面具有较好的优越性. 相似文献
10.
11.
12.
根据移动通信客户的来话与去话等话务信息,结合客户身份证件资料,可以对特定区域人口的流入、流出情况以及流动类型进行分析及统计,为当地政府决策提供信息服务。鉴于移动通信数据源多样化、数据量大、数据增长快速等大数据处理问题,采用并行分布处理大数据的Hadoop技术,构建基于Hadoop的移动通信大数据处理框架,并通过设计ODS DWD DW三层数据处理、并行ETL和冗余删除以及分布式MySQL集群的查询代理层,满足移动通信大数据的数据载入、分布式存储和查询等用途的高效处理要求。 相似文献
13.
分布全球的气象传感器每隔一段时间就会收集大量的气象数据,历史气象数据更为庞大,如何存储和处理这些数据已成为一个难题。Hadoop的出现给人们提供了存储和分析大数据的一个利器,它利用HDFS分布式文件系统进行大数据存储,用户通过编写MapReduce程序完成大数据的分析处理。然而,对于很多用户而言,熟练掌握Java语言并编写MapReduce程序并不容易。鉴于此,利用Hive来存储和处理气象数据集。Hive是构建在Hadoop上的数据仓库框架,它支持SQL接口,可以让精通SQL技能的分析师对存放在HDFS中的大规模数据集进行查询分析。 相似文献
14.
《实验室研究与探索》2015,(11):77-81
随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了详细说明并对hadoop和spark的性能进行比较,包括Hadoop和Spark集群的安装和部署,Spark集成开发环境的建立,同一组数据集在两个平台上进行Kmeans聚类的时间对比。对于建设分布式计算平台具有一定的指导意义。 相似文献
15.
陈海蕊 《濮阳教育学院学报》2014,(4):146-148
太阳风是从恒星上层大气射出的超声速等离子体带电粒子流。为了正确高效地存储太阳风粒子海量数据,使之结构化并为后续研究所用,本文通过研究云存储架构模型及其关键技术,构建太阳风数据私有云存储模型,设计出一种基于云存储的太阳风数据资源管理系统SWDCS。基于云存储模型的SWDCS系统能够较好地解决太阳风粒子海量数据的高效存储问题,为进一步研究和建立太阳风粒子系统仿真体系提供了物质基础。 相似文献
16.
大数据环境下,传统的数据处理方式不再适用,以云计算技术为支撑的大数据处理平台应运而生。比较了开源Hadoop和Spark平台各自的优缺点,发现各自的适用范围:Hadoop适用于数据密集型任务,并广泛应用于离线分析;Spark因其基于内存计算,在迭代计算和实时分析领域占据优势。二者在功能上有较强的互补性,协同使用可以发挥更大效益。 相似文献
17.
《赤峰学院学报(自然科学版)》2020,(2)
针对数据挖掘实践课程现状和实际教学效果,结合数据挖掘实践课程特点,在分析总结多种数据挖掘工具的基础上,设计了一种基于Hadoop的数据挖掘实践平台.架构在分布式计算平台Hadoop上的数据挖掘实践平台,克服了传统数据挖掘工具的种种问题,其能够支持数据挖掘的标准流程,处理TB级的海量数据用于实践挖掘,为数据挖掘基础实践提供了丰富的数据挖掘算法用于建模.同时,基于Hadoop的数据挖掘实践平台提供了灵活多样的应用开发接口,能够支持第三方软件商集成开发,快速构建大型海量数据挖掘的应用系统,完成综合数据挖掘应用的二次开发.基于Hadoop的数据挖掘实践平台,为数据挖掘实践与科研提供了海量数据处理能力的数据挖掘平台,激励学生以竞赛模式学习和完成数据挖掘实践,从而促进了学生创新实践能力的培养. 相似文献
18.
互联网的迅速发展产生了各种海量数据,快速有效处理海量数据是云计算的目标。Hadoop作为典型的云计算平台可高效处理海量数据。介绍了Hadoop相关概念,包括HDFS、MapReduce等众多子项目;阐述了Hadoop完全分布式平台搭建,包括环境配置、搭建方法等;通过数据处理实验验证了Hadoop分布式平台的有效性。 相似文献
19.
针对未来物联网农业产生的海量数据采集、管理和挖掘问题,本文提出了基于Hadoop集群分布式存储与传统MySQL数据库相结合的农业大数据云端系统。通过无线传感器网络构建农作物生长环境参数,如温度、湿度、光照度、土壤湿度及图像视频等数据采集和传输平台,数据最后汇聚到云端通过H adoop分布式计算框架和MapReduce编程模型对农业海量数据进行存储、检索、管理和决策,为农作物生长过程实时监测和最优化生产提供指导,实现方便、快捷、高效和低成本的农业管理系统。 相似文献
20.
《洛阳师范学院学报》2017,(5):56-59
文章分析了高职院校教育资源的现状和面临的问题,介绍了云存储的结构模型和优势,提出了一种基于云存储的数据存储方案.该方案采用Hadoop云平台,将HDFS与现有高职院校教育云平台相结合,有效解决了教育资源云平台上海量数据的存储问题. 相似文献