排序方式: 共有45条查询结果,搜索用时 15 毫秒
1.
分析大量的非结构化文本数据已经成为各类研究及数据分析中的重要任务。本文借助Hadoop分布式计算平台,搭建了一个基于IKAnalyzer开源工具的文本分析应用系统框架,系统基于Spring Boot架构进行了Web应用平台搭建,结合node.js技术构建了数据驱动的Web前端UI呈现。研究实践了从文档收集、文档预处理、分布式计算、中文分词及词频分析、可视化呈现的初步流程。借助该系统平台,研究分别以金庸小说文本数据及采集的贵州省极贫乡镇教育基础数据作为语料数据进行了相关文本统计分析实践。 相似文献
2.
李萍 《大学图书情报学刊》2014,32(5):35-41
文章通过使用Hadoop计算平台,以K-Means算法为例,分析其在Mahout中的并行化策略。通过对读者的借阅数据进行分析研究,应用数据挖掘技术逐步建立应用模型,有效地将数据挖掘技术与图书馆个性化服务紧密地结合在一起。 相似文献
3.
以大数据应用技术和能源-经济-环境协调发展理论为基础,融合大数据和能源-经济-环境三位一体两种思维,提出能源-经济-环境(3E)大数据平台的框架构想和运营模式,为大数据背景下分析能源、经济、环境复杂系统,挖掘大数据背后所隐藏的关联规则,将不规则、散乱的数据变成政府、企业、研究机构等各类组织的信息资源提供数据支撑、工具支撑、方法论支撑等研究平台。 相似文献
4.
作为深受开发者青睐的主流大数据平台,Hadoop在数据的处理、分析及应用上拥有着其他平台不可比拟的优势。在介绍了大数据定义和Hadoop生态系统架构的基础上,分别对基于Hadoop提出的大数据存储、分析、管理、安全及应用等关键问题的解决方案进行了研究和综述。最后,对基于Hadoop的大数据平台的研究和应用发展方向进行了展望。 相似文献
5.
针对传统HDFS在存取海量小文件时出现的I/O性能瓶颈问题,本文提出了一种优化的HDFS存取策略.通过文件预处理、增加元数据信息和元数据批处理操作等优化策略,比较好地解决了传统HDFS处理海量小文件的性能问题.并通过试验证明了该方法的有效性. 相似文献
6.
随着大数据时代的到来,聚类分析算法将面临如数据量巨大、数据维数增加等挑战,分布式处理是解决这类问题的方法之一.本研究将ROCK算法与Hadoop平台相结合,按照分布式处理原则,通过计算机集群模式去处理大规模的多样性数据.实验证明,在Hadoop平台下的ROCK聚类算法很大程度上提升了对高维数据进行聚类的能力. 相似文献
7.
8.
何颖 《贵州教育学院学报》2013,(9):18-21
爆炸式增长的数据要求高效率地使用计算资源,Hadoop是解决大数据处理的一个方向,不过Ha-doop平台还处于发展中,很多地方还有待完善。对Hadoop自带的三种调度器的优缺点进行分析,针对希望区分和动态改变作业服务质量的情况提出了动态优先调度算法。实验结果表明动态优先调度算法能够在作业的运行中动态改变作业的优先级,在效率上也有所提升。 相似文献
9.
HDFS;肯容错性好、传输效率高等优点。MapReduce对数据采用海量处理的方式。文章根据笔者对HDFS和MapReduce的理解发表一些自己的看法。 相似文献
10.
In Information Retrieval (IR), the efficient indexing of terabyte-scale and larger corpora is still a difficult problem. MapReduce has been proposed as a framework for distributing data-intensive operations across multiple processing machines. In this work, we provide a detailed analysis of four MapReduce indexing strategies of varying complexity. Moreover, we evaluate these indexing strategies by implementing them in an existing IR framework, and performing experiments using the Hadoop MapReduce implementation, in combination with several large standard TREC test corpora. In particular, we examine the efficiency of the indexing strategies, and for the most efficient strategy, we examine how it scales with respect to corpus size, and processing power. Our results attest to both the importance of minimising data transfer between machines for IO intensive tasks like indexing, and the suitability of the per-posting list MapReduce indexing strategy, in particular for indexing at a terabyte-scale. Hence, we conclude that MapReduce is a suitable framework for the deployment of large-scale indexing. 相似文献