排序方式: 共有2条查询结果,搜索用时 6 毫秒
1
1.
Hadoop平台是apche下的一个开源大数据平台,具有分布性、虚拟化、高可靠性、高可伸缩性、通用性等特点。Hadoop平台发展至今,集成组件已从1.0发展到2.0。从Hadoop体系结构入手,分析了Hadoop 平台1.0和2.0平台的基准测试性能并进行了对比。研究了testdfsIO、yarn、hive的基准测试,通过对升级后平台的基准测试,分析了2.0的优势,为集成Hadoop平台提供参考。 相似文献
2.
赵华茗 《现代图书情报技术》2011,(Z1)
针对传统的相似度计算方法在海量信息处理过程中暴露出的数据处理规模限制和性能不足等方面的瓶颈问题,以非结构化文档为研究对象,提出一种基于Hadoop分布式环境,结合Hive数据处理平台和PostgreSQL关系型数据库的文档相似度计算方法,并给出关键技术思路、具体实现步骤和实证研究,通过研究证明Hive SQL语言可有效简化分布式数据处理的复杂性,但实时性有待改进。 相似文献
1