共查询到20条相似文献,搜索用时 78 毫秒
1.
《实验室研究与探索》2013,(11):78-81
云计算平台的建设对于信息相关学科的科研和教学均具有重要的意义。就如何在实验室中搭建基于Hadoop的分布式云计算平台进行了详细的说明,包括安装环境的搭建、Hadoop安装与部署、开发环境的建立等方面,对于建设云计算平台具有较好的指导意义。 相似文献
2.
企业级检索不同于普通的数据检索和网站检索,它包括复杂结构的数据检索、安全检索、高可靠的查全和查准、智能化的数据检索服务和实时的数据更新服务等。虽然可以利用已有数据检索系统提供的站内数据检索功能来构建企业级数据检索系统,但这种站内检索功能难以满足绝大多数企业自身检索需求。随着大数据时代来临,为处理海量数据,建立大数据平台成为趋势,使用分布式文件存储系统,通过云计算技术来分析海量数据,开发企业级智能云检索系统是提高企业综合效益的关键。基于自然语言的智能云检索,研究开发了基于Hadoop平台的分布式数据检索系统,实现了分布式文件系统和传统关系数据库协同运行的高效数据检索系统。 相似文献
3.
4.
随着数据挖掘逐渐被应用到金融、娱乐、商业和医疗等多个行业,近年来涌现出各种用于处理海量数据的数据处理引擎,如MapReduce、Spark等。为了使高校实验室更深入地进行数据挖掘领域的理论研究,简要阐述分析了Spark技术及HDFS的概念与基本原理,详细介绍了基于Spark的云计算平台配置方法和实现过程,并对平台搭建过程中遇到的问题进行总结。实验结果证明,该平台能够有效完成分布式数据处理任务。 相似文献
5.
信息社会是数据爆炸的时代,分布式并行计算在应对海量数据处理等大作业方面非常有效.Apache基金会下的Hadoop正是这样一个开源的分布式系统基础构架.首先介绍了Hadoop平台下作业的分布式运行机制,然后对Hadoop平台自带的3种任务调度器做分析和比较,最后在分析JobTracker类文件的基础上指出了创建自定义任务调度器所需完成的工作. 相似文献
6.
7.
李玲瑞 《洛阳师范学院学报》2013,(11):64-68
从云计算的定义与云存储的数据模型,GML的空间数据特征等方面探究云计算环境下GML空间数据存储方法.搭建单机与分布式的平台并对两者的存储性能进行对比,得出云计算环境下对GML空间的海量数据存储和访问采用分布式的存储优于采用单机存储的结论. 相似文献
8.
随着人类产生的数据量呈指数级增长,数据的海量、多样化等特征使传统的聚类算法无法处理这些数据,而近来较为流行的Hadoop平台在处理数据的速度上也达到瓶颈。因此,专家们想要研究一种更为适合的处理平台来处理遇到的海量数据,Spark平台应运而生。首先介绍了聚类算法定义与分类,随后提出了Spark平台,包括Spark核心技术(RDD)、Spark和Hadoop的对比,并介绍了K means在Spark平台上的实现,最后总结了Spark的应用现状并对其未来发展进行了展望。 相似文献
9.
《实验室研究与探索》2019,(12)
随着云计算应用技术及相关研究的发展,云编程模式也有了新的技术革新。在高校校园网实验教学体系中,云平台的相关实验已经成为大数据分析等课程配套实验的主要内容。使用HDFS架构,搭建稳定、实用、符合实验课程体系的大数据实验平台,成为高校校园网实验研究的新课题。选用开源云计算平台Hadoop,作为基础平台进行大数据分析实验,搭建基本的实验平台,进行数据处理平台的优化处理。通过HDFS为分布式计算存储提供底层应用支持,实现NameNode和DataNode的通信,将用户通过数据块的方式将文件存储到节点中,及时处理客户端的读写请求,并在NameNode的统一调度下进行数据块的创建、删除、复制和映射。根据具体的实验方法,有针对性的制定实验流程。 相似文献
10.
《实验室研究与探索》2015,(11):77-81
随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了详细说明并对hadoop和spark的性能进行比较,包括Hadoop和Spark集群的安装和部署,Spark集成开发环境的建立,同一组数据集在两个平台上进行Kmeans聚类的时间对比。对于建设分布式计算平台具有一定的指导意义。 相似文献
11.
12.
聚类算法一直备受研究者青睐。随着信息技术和数据技术的发展,数据的种类和数量急剧增长,云计算平台Hadoop成为这些数据存储和处理的新平台,基于云计算平台Hadoop的聚类算法逐渐成为热门。针对数据挖掘中的聚类问题,依托云计算模式及Hadoop平台,研究了K-means算法,有效改变了现有算法的局限性。 相似文献
13.
作品介绍采用虚拟化技术构建一个云计算平台方案,同时采用SpringSource中的软件工具,开发一套面向虚拟Hadoop集群的管理平台:vCirrus。通过该平台配合虚拟机,可以方便的搭建一个Hadoop集群,对该集群进行监测和管理,还可以收集大量的系统运行信息,为整个云计算系统的维护和优化提供较好的依据。 相似文献
14.
15.
高校是进行教学与科研的场所,随着云计算技术的发展,如何管理和利用产生的海量数据已成为当前研究的热点。设计了一个基于Hadoop云计算平台的数字化校园,其由4层体系构建,对该系统从结构、功能等方面进行了设计与分析。 相似文献
16.
17.
Hadoop作为云计算开源项目,已得到工业界和学术界的广泛认可。传统的Hadoop环境大多基于物理服务器,难以获取足够的实验场地和设备来建立Hadoop实验环境。同时,存在维护和管理代价高、资源浪费严重等问题。基于东华云平台,提出一种在单台物理服务器上运行多台虚拟机来创建虚拟化Hadoop环境的方法,即便只有一台服务器,也可以快速搭建Hadoop环境并进行基础实验,实验证明了该集群的可用性。 相似文献
18.
在科技高速发展的今天,海量数据处理问题受到人们广泛关注。将K means聚类算法与Hadoop平台相结合是处理海量数据问题的一条可靠途径。简单介绍Hadoop和K means算法以及K means聚类算法MapReduce并行化实现,并阐述目前Hadoop平台下K means算法的几种优化方式,最后提出研究展望。 相似文献
19.
随着大数据时代的到来,聚类分析算法将面临如数据量巨大、数据维数增加等挑战,分布式处理是解决这类问题的方法之一.本研究将ROCK算法与Hadoop平台相结合,按照分布式处理原则,通过计算机集群模式去处理大规模的多样性数据.实验证明,在Hadoop平台下的ROCK聚类算法很大程度上提升了对高维数据进行聚类的能力. 相似文献
20.
作为深受开发者青睐的主流大数据平台,Hadoop在数据的处理、分析及应用上拥有着其他平台不可比拟的优势。在介绍了大数据定义和Hadoop生态系统架构的基础上,分别对基于Hadoop提出的大数据存储、分析、管理、安全及应用等关键问题的解决方案进行了研究和综述。最后,对基于Hadoop的大数据平台的研究和应用发展方向进行了展望。 相似文献