首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 23 毫秒
1.
采用传统分布式数据库架构存储和管理海量数据,效率不高且系统的存储能力受制于所依赖的数据库管理系统的能力.Hadoop作为一种开源的架构,适合在廉价机器上对各种资源数据进行分布式存储和分布式管理,具有可伸缩性和高容错性.本文在研究开源框架Hadoop的基础上,提出了基于Hadoop的海量数据处理模型,并在不同数量的Datanode的情况下对副本系数与块大小对HDFS的I/O性能的影响进行测试,试验结果表明,提供的模型较高效率地实现了对大数据量的日志的快速预处理.  相似文献   

2.
基于Hadoop技术开发了数字化校园海量数据存储系统,提出了基于Hadoop的大数据存储模型。将整个系统设计为系统管理、业务应用、数据处理、数据采集等4个大模块,采用开源分布式数据处理框架,高效处理海量数据。系统具有可伸缩性、高可靠性、低成本和高效性等优点,解决了传统数据处理成本高、数据管理困难、可靠性低、效率低、并行处理程序编写困难等诸多问题。  相似文献   

3.
作为深受开发者青睐的主流大数据平台,Hadoop在数据的处理、分析及应用上拥有着其他平台不可比拟的优势。在介绍了大数据定义和Hadoop生态系统架构的基础上,分别对基于Hadoop提出的大数据存储、分析、管理、安全及应用等关键问题的解决方案进行了研究和综述。最后,对基于Hadoop的大数据平台的研究和应用发展方向进行了展望。  相似文献   

4.
在大数据时代,数据高速增长,对数据仓库管理方法和技术提出了全新挑战,为实现仓储资源优化配置,提高资源使用效率,首次把数据半衰期运用于数据仓库分级存储。传统固定阈值转存策略存在存储资源配置不合理的问题,利用半衰期分级存储策略,对每个数据对象进行计算分析后转存,采用MPP数据仓库和Hadoop构建混合数据仓库存储架构,解决了大数据背景下的数据存储与分析,实现了数据仓库管理方法和数据存储架构的创新。实际验证发现,数据半衰期转存策略优于固定阈值转存策略,证明数据半衰期在数据仓库的管理中有显著应用价值。  相似文献   

5.
智慧校园是信息化技术发展的必然产物,将大数据技术应用于高校的信息化建设是实现决策型智慧校园的关键.依据《慧校园总体框架》和智慧城市建设参考模型将决策型智慧校园系统架构设计为数据采集层、网络通信层、计算存储层、数据服务支撑层和智慧应用层,同时讨论系统中大数据的类型和分布式数据库的优势及利用MPP、Hadoop混合模式存储大数据的设计,通过研究设计一种新的决策型智慧校园架构,为决策型智慧校园的建设提供依据.  相似文献   

6.
针对目前国家教育考试网上评卷海量图像文件的存储管理问题,本文提出基于Hadoop的No Sq L云存储方案,提高评卷海量数据安全性和存储可靠性,构建分布式、可扩展、高可用性和可靠性的云存储平台。通过分析基于Hadoop平台云计算体系和基于HDFS/HBase的云存储技术,结合网上评卷海量图像文件的存储需求和实际,规划基于Hadoop/HDFS/HBase的国家教育考试云存储中心的数据交换平台,并对在国家教育考试中深入应用此平台给出设计方案,提出发展愿景。  相似文献   

7.
为改变依靠说教和事后分析找对策的传统学生管理方式,基于大数据的视角,构建了校园学生行为数据的分析模型,并通过大数据处理框架Hadoop和数据分析语言R设计了学生行为分析平台架构,基于此架构,实现了学生行为特征的分析,为学生管理的科学化、全面化和个性化提供了技术服务,为学校的高层决策提供智力支持。  相似文献   

8.
为建设友好共享的民政数据仓库,实现基础数据集聚化,满足大数据服务大民生的需求,提出了民政云解决方案总体架构。在民政云架构下采用Hadoop+MPP混搭方式构建动态数据中心,通过连接器和外部表两种方式实现Hadoop和不同数据库之间的数据同步和调用;通过统一的语言或服务接口实现上层应用对底层数据的透明访问,有效解决民政系统内部纵向数据与其它部门横向数据的实时交换,为民政公共服务信息平台提供全面、权威的数据。  相似文献   

9.
为提高压力管道数据存储性能,改善数据存储效率,增强压力管道后期的可维护性,构建一种基于Hadoop的压力管道数据存储系统.该系统利用HDFS分布式存储框架建立压力管道数据的存储模型,采用MapReduce对压力管道海量数据进行分析和处理,从而完成数据写入HBase数据库的低延迟响应.在实验中,采用压力管道数据对MySQL、Oracle、Spark SQL、MongoDB和Rasdaman进行性能对比.结果表明,在相同数据量的情况下,系统运行时间更短,占用内存更少,其在存储压力管道海量数据方面具有较好的优越性.  相似文献   

10.
近几年技术的进步使得许多领域(如医疗保健传感器、客户端、互联网和金融企业、以及商业系统)产生了海量数据.相比传统数据,除了其庞大的数据量,大数据也表现出其他特性.例如,大的数据通常是非结构化的,需要更精确的实时分析.这意味着需要新的系统架构对数据进行采集、传输、存储以及大规模数据处理的机制.提出了大数据的定义和未来大数据面临的挑战,将大数据系统分为四个连续的模块,即数据生成、数据获取、数据存储和数据分析,这四个模块可以形成大数据的价值链.对研究和产业机构提出的许多方法进行了分析和总结并列出了一些大数据系统潜在的研究方向.  相似文献   

11.
随着计算机技术的快速发展,目前诸多行业信息化程度越来越高,需要处理的数据量也不断增大。对基于Hadoop的海量情报数据的存储和处理方法进行研究,提出一种基于Hadoop技术的海量情报数据管理系统,优化了情报数据存储和处理效率,对提高战场上海量情报的分析处理能力有着非常重要的作用。  相似文献   

12.
根据移动通信客户的来话与去话等话务信息,结合客户身份证件资料,可以对特定区域人口的流入、流出情况以及流动类型进行分析及统计,为当地政府决策提供信息服务。鉴于移动通信数据源多样化、数据量大、数据增长快速等大数据处理问题,采用并行分布处理大数据的Hadoop技术,构建基于Hadoop的移动通信大数据处理框架,并通过设计ODS DWD DW三层数据处理、并行ETL和冗余删除以及分布式MySQL集群的查询代理层,满足移动通信大数据的数据载入、分布式存储和查询等用途的高效处理要求。  相似文献   

13.
分布全球的气象传感器每隔一段时间就会收集大量的气象数据,历史气象数据更为庞大,如何存储和处理这些数据已成为一个难题。Hadoop的出现给人们提供了存储和分析大数据的一个利器,它利用HDFS分布式文件系统进行大数据存储,用户通过编写MapReduce程序完成大数据的分析处理。然而,对于很多用户而言,熟练掌握Java语言并编写MapReduce程序并不容易。鉴于此,利用Hive来存储和处理气象数据集。Hive是构建在Hadoop上的数据仓库框架,它支持SQL接口,可以让精通SQL技能的分析师对存放在HDFS中的大规模数据集进行查询分析。  相似文献   

14.
随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了详细说明并对hadoop和spark的性能进行比较,包括Hadoop和Spark集群的安装和部署,Spark集成开发环境的建立,同一组数据集在两个平台上进行Kmeans聚类的时间对比。对于建设分布式计算平台具有一定的指导意义。  相似文献   

15.
太阳风是从恒星上层大气射出的超声速等离子体带电粒子流。为了正确高效地存储太阳风粒子海量数据,使之结构化并为后续研究所用,本文通过研究云存储架构模型及其关键技术,构建太阳风数据私有云存储模型,设计出一种基于云存储的太阳风数据资源管理系统SWDCS。基于云存储模型的SWDCS系统能够较好地解决太阳风粒子海量数据的高效存储问题,为进一步研究和建立太阳风粒子系统仿真体系提供了物质基础。  相似文献   

16.
大数据环境下,传统的数据处理方式不再适用,以云计算技术为支撑的大数据处理平台应运而生。比较了开源Hadoop和Spark平台各自的优缺点,发现各自的适用范围:Hadoop适用于数据密集型任务,并广泛应用于离线分析;Spark因其基于内存计算,在迭代计算和实时分析领域占据优势。二者在功能上有较强的互补性,协同使用可以发挥更大效益。  相似文献   

17.
针对数据挖掘实践课程现状和实际教学效果,结合数据挖掘实践课程特点,在分析总结多种数据挖掘工具的基础上,设计了一种基于Hadoop的数据挖掘实践平台.架构在分布式计算平台Hadoop上的数据挖掘实践平台,克服了传统数据挖掘工具的种种问题,其能够支持数据挖掘的标准流程,处理TB级的海量数据用于实践挖掘,为数据挖掘基础实践提供了丰富的数据挖掘算法用于建模.同时,基于Hadoop的数据挖掘实践平台提供了灵活多样的应用开发接口,能够支持第三方软件商集成开发,快速构建大型海量数据挖掘的应用系统,完成综合数据挖掘应用的二次开发.基于Hadoop的数据挖掘实践平台,为数据挖掘实践与科研提供了海量数据处理能力的数据挖掘平台,激励学生以竞赛模式学习和完成数据挖掘实践,从而促进了学生创新实践能力的培养.  相似文献   

18.
互联网的迅速发展产生了各种海量数据,快速有效处理海量数据是云计算的目标。Hadoop作为典型的云计算平台可高效处理海量数据。介绍了Hadoop相关概念,包括HDFS、MapReduce等众多子项目;阐述了Hadoop完全分布式平台搭建,包括环境配置、搭建方法等;通过数据处理实验验证了Hadoop分布式平台的有效性。  相似文献   

19.
针对未来物联网农业产生的海量数据采集、管理和挖掘问题,本文提出了基于Hadoop集群分布式存储与传统MySQL数据库相结合的农业大数据云端系统。通过无线传感器网络构建农作物生长环境参数,如温度、湿度、光照度、土壤湿度及图像视频等数据采集和传输平台,数据最后汇聚到云端通过H adoop分布式计算框架和MapReduce编程模型对农业海量数据进行存储、检索、管理和决策,为农作物生长过程实时监测和最优化生产提供指导,实现方便、快捷、高效和低成本的农业管理系统。  相似文献   

20.
文章分析了高职院校教育资源的现状和面临的问题,介绍了云存储的结构模型和优势,提出了一种基于云存储的数据存储方案.该方案采用Hadoop云平台,将HDFS与现有高职院校教育云平台相结合,有效解决了教育资源云平台上海量数据的存储问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号