期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

曾大军《科技广场》2012,(5):42-44

本文在开源云计算平台Hadoop的基础上利用MapReduce和HDFS,针对大型矩阵相乘,并结合个人实际水平进行简单的开发应用。通过开发和研究,进一步探讨云计算关键技术MapReduce对于海量数据处理的意义。相似文献

2.

郭建伟李瑛杜丽萍赵桂芬蒋继娅《中国科技信息》2013,(13):81-83

以Hadoop为代表的分布式系统,正在逐渐成为大数据挖掘系统必要组成部分。因此,就是在Hadoop分布式系统上完成数据挖掘任务的一次实践。主要任务是使用Hadoop搭建分布式集群环境,并在该环境上部署数据挖掘任务。研究Hadoop系统架构,对其分布式文件系统HDFS和MapReduce并行编程模型的原理和实现进行深入理解。系统掌握数据挖掘过程,将传统的数据挖掘算法使用MapReduce编程实现,并针对Hadoop平台的数据挖掘算法的执行情况进行研究,主要分析其执行效率和可扩展性。选择数据挖掘中的数据聚类任务作为代表,并选择K-means聚类算法做深入研究,掌握其原理并编写其MapReduce版本,在Hadoop平台上测试并验证其效果。通过不同集群规模和不同数据规模的对比试验得出,使用Hadoop分布式系统进行数据挖掘任务具有良好地加速比和效率,计算能力的扩展性能分析也显示了其具有较大的潜力。相似文献

3.

基于云计算架构的西藏生态数据聚类分析算法研究

《西藏科技》2018,(11)

文章通过分析传统的空间聚类算法以及新发展的聚类分析方法,最终选K-means算法进行研究。基于Hadoop平台,采用HDFS(分布式文件系统)存储数据,结合MapReduce编程模式,对K-means算法进行设计以及编程实现,最后实现了该算法在Hadoop平台上的并行化。通过实验,验证了K-means算法部署在Hadoop集群上并行化运行,在处理空间数据时,该算法有效地减少了时间复杂度,大大提高了实施效率和结果的准确性。相似文献

4.

Hadoop分布式云计算在图书馆数字资源建设中的应用研究

《内蒙古科技与经济》2017,(1)

介绍图书馆数字资源建设的重要性,Hadoop分布式云计算的组成及两个核心部分HDFS和MapReduce的运行原理,由Hadoop云计算实现的网格计算、分布式处理、并行处理等技术在图书馆数字资源建设中显示的巨大优势。最后通过Hadoop云计算搭建图书馆数字资源,实现Hadoop平台下数字资源的检索实例。提出图书馆工作人员在云计算环境下需要认真追踪和研究的新问题。相似文献

5.

基于大数据分析的文本智能识别系统的研究

杨明芬吴旭阚瑷珂常康《西藏科技》2018,(9)

根据软件工程的基本原理在Ubuntu操作系统环境下使用Eclipse开发工具,设计并实现了基于Hadoop系统架构的NaiveBayes算法文本分类系统。系统将大量中文文本数据集存储在分布式文件系统HDFS上,通过MapReduce并行计算模型和Ansj中文分词库对中文数据集进行分词,采用TF-IDF算法进行文本特征抽取,最后基于Spark并行计算框架和NaiveBayes算法对特征数据集进行模型训练,得到文本分类模型,将文本分类服务集成到Web页面。系统基本实现了文本的正确分类。相似文献

6.

基于令牌的HDFS云存储系统安全方案设计

詹增荣《科技创业月刊》2014,(12)

针对当前主流的开源HDFS云存储系统,提出了一种基于令牌访问控制机制的安全方案。该方案为HDFS云存储系统提供了一个灵活的认证框架来满足不同企业,可以根据自定的认证系统来对用户进行认证,并避免了HDFS用户对数据节点的非法访问等安全问题。此外,提出基于角色访问控制并增加域属性的方法,完善了HDFS集群的资源访问授权机制。最后,讨论了系统的安全性、可靠性、扩展性以及支持多HDFS集群认证与授权等特点。相似文献

7.

一种改进的MapReduce并行编程模型 总被引：3，自引：0，他引：3

周锋李旭伟《科协论坛》2009,(2)

MapReduce是一种并行编程模型,它通常用于处理大型的数据集的程序设计中.基于这种功能的程序能够在大规模的普通机器上自动并发的执行.本文提出了一种改进型的MapReduce编程模型,该模型继承了传统的MapReduce模型对map函数和reduce函数的定义.对map和reduce过程进行了改进优化.实验表明,改进后的MapReduce模型具有更好的执行效率. 相似文献

8.

基于HDFS的数字图书馆云存储系统研究

黎平国《情报探索》2012,(9):98-101

分析数字图书馆海量存储系统面临问题及特殊要求,结合HDFS云存储系统的特点,设计了一套适合HDFS的中间件;结合Sequence File文件合并技术,构建一套能满足数字图书馆文献资源存储和访问特点的云存储系统. 相似文献

9.

基于Spark MapReduce框架的分布式渲染系统研究

高官涛郑小盈宋应文周星宇吴佳明霍雷张嘉璐《人天科学研究》2013,(12):26-29

三维渲染是电影、动画和游戏制作所需的重要工具,耗费大量时间和资源,是计算密集和数据密集的复杂过程。分布式渲染是目前提高渲染效率最有效可行的手段之一。提出了一套基于Spark MapReduce的分布式渲染系统,该系统使用由集群资源管理器Apache Mesos、支持内存驻留的MapReduce计算框架Spark、分布式Hadoop文件系统构成的分布式计算集群。在这个集群之上,设计并实现一个符合MapReduce算法工作模式的渲染接口程序,用于调用外部渲染程序Blender实现单帧渲染任务。测试结果表明,基于Spark MapReduce框架的分布式渲染能够显著提高渲染速度,减轻开发所需工作量。相似文献

10.

基于Hadoop的图书馆复合大数据存储系统研究

梁俊荣《现代情报》2017,37(2):63-67

Hadoop中的HDFS是大数据存储处理的关键技术,HDFS在存储海量数据集中有着高效、可靠的优点。为解决图书馆传统关系型数据库在海量数据存储和访问效率中存在的瓶颈问题,本文提出了一种基于Hadoop的图书馆复合大数据存储系统。该复合大数据存储系统能够满足图书馆大数据存储需求,提高大数据存储效率,可高效保障图书馆大数据决策的需求。相似文献

11.

MapReduce indexing strategies: Studying scalability and efficiency

Richard McCreadie Craig Macdonald Iadh Ounis 《Information processing & management》2012

In Information Retrieval (IR), the efficient indexing of terabyte-scale and larger corpora is still a difficult problem. MapReduce has been proposed as a framework for distributing data-intensive operations across multiple processing machines. In this work, we provide a detailed analysis of four MapReduce indexing strategies of varying complexity. Moreover, we evaluate these indexing strategies by implementing them in an existing IR framework, and performing experiments using the Hadoop MapReduce implementation, in combination with several large standard TREC test corpora. In particular, we examine the efficiency of the indexing strategies, and for the most efficient strategy, we examine how it scales with respect to corpus size, and processing power. Our results attest to both the importance of minimising data transfer between machines for IO intensive tasks like indexing, and the suitability of the per-posting list MapReduce indexing strategy, in particular for indexing at a terabyte-scale. Hence, we conclude that MapReduce is a suitable framework for the deployment of large-scale indexing. 相似文献

12.

Hadoop平台在图书推荐应用中的性能分析

赵彦辉刘树春《现代情报》2014,34(10):157-161

构建基于分布式平台及大量借阅数据的图书推荐算法,是实现图书馆个性化信息推送服务的关键环节.本文从搭建Hadoop分布式平台和运用Mahout的MapReduce实现算法入手,针对读者借阅记录的分类号进行频数统计和借阅时间统计,依据借阅次数和借阅时间获得偏好值.并使用Mahout基于图书的推荐器,测试伪分布式单节点模式和完全分布式MapReduce计算框架下的推荐效果.测试表明:在MapReduce运算中增加DataNode的数量同时优化BlockSize参数能显著缩短运算时间,是实现个性化荐书服务自动推送的可行方法. 相似文献

13.

基于MapReduce模型的电力数据并行化的异常检测

许元斌 ;钟小强 ;王丹 ;李春生《情报探索》2014,(8):74-78

提出了基于MapReduce计算模型的电力数据异常检测的并行化设计,实现了多个计算节点对海量的电力数据进行并行化的异常发现,从而快速发现存在异常的采集点。相似文献

14.

大数据领域代表性专家识别与分析——文献计量学视角

高继平马峥潘云涛张玉华《科技管理研究》2016,(16):177-182

以Scopus数据库中"大数据"相关研究作为分析对象,采用关键词共现网络聚类的方法,确定相关的10个研究方向,分别是Hadoop研究、MapReduce优化、大数据下的数据挖掘研究、大数据下的网络安全与隐私、分布式计算机系统、数据密集型计算、可视化技术、物联网、移动云计算和云制造等研究方向。结合论文数、H指数等指标,识别不同研究方向下的代表性专家,并对其主要研究成果进行分析。结果发现网络安全与隐私中顶尖专家较多,同时在云制造方向下,我国大陆地区的研究人员较多。相似文献

15.

基于云计算的 P2P识别系统架构研究

张水平张腾《人天科学研究》2014,(5):15-17

云计算技术的迅猛发展极大地促进了P2P应用,P2P应用产生的庞大流量给P2P流量识别带来了巨大的考验,针对P2P流量识别中的问题,提出一种利用云环境的识别模式。该模式将P2P的识别系统架设在云中,利用Ma-pReduce系统架构和云环境超强的数据处理能力,能够应对海量P2P流量识别,缩短流量识别时间。相似文献

16.

基于专利地图的全球大数据技术竞争态势研究 总被引：1，自引：0，他引：1

汪满容刘桂锋孙华平《现代情报》2017,37(1):148-155

[目的/意义] 运用专利地图的方法探索全球大数据技术的竞争态势,以期为我国政府、企业、高校发展大数据产业和技术提供竞争情报支撑。[方法/过程] 以Thomson Innovation平台的Derwent Innovations Index（德温特专利数据库）中1 363篇大数据技术专利文献为数据来源,运用专利管理地图、专利权利地图和专利技术地图的方法,从申请年份、申请国家、专利申请人、同族专利、专利引用、技术领域等角度进行态势分析。[结果/结论] 研究表明：大数据技术发展的阶段特征明显;美中两国是大数据技术研发的主要国家;互联网企业是大数据技术的重要推动力量;大数据研发的热点聚焦在Hadoop、MapReduce等技术。相似文献

17.

云计算架构在银行批处理流程优化中的应用研究

赵曦《人天科学研究》2013,(10):1-4

银行业在实现业务和数据集中处理的信息化架构后,随着业务的发展,面对数量越来越多、规模越来越大的批处理需求,如何提高计算资源的使用效率和灵活配置资源是银行信息中心不断面对的挑战。以资源和应用虚拟化为核心的云计算架构和技术正在不断发展和成熟,它可以有效地提高信息中心的资源使用,为批处理业务动态配置有效资源。针对以批处理中按照业务类型和处理流程进行资源配置的传统方法,提出了一种将业务流程进行优化分解成为可以进行独立并行处理任务的方法,可以在云计算环境下分组处理具有共同特征的计算和操作任务,实现优化资源调配。通过HadoopMapReduce并行计算架构进行模拟验证,初步实验结果表明了该方法在批处理执行效率、资源使用和灵活性方面的优势,在大量批处理业务领域（金融、证券、电子商务）具有一定的应用和研究价值。相似文献

18.

Optimized hadoop map reduce system for strong analytics of cloud big product data on amazon web service

《Information processing & management》2023,60(3):103271

Because of the rapid increase of data in the cloud of Amazon Web Service (AWS), the traditional methods for analyzing this data are not good and inappropriate, so unconventional methods of analysis have been proposed by many data scientists such as concurrent/ parallel techniques to meeting the requirements of performance and scalability entailed in such big data analyses. In this paper we are used Hadoop Map Reduce system that contains Hadoop Distributed File System (HDFS) and Hadoop cluster. We optimized it by combining it with five efficient Data Mining (DM) algorithms such as Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), Correlative Naïve Bayes classifier (CNB), and Fuzzy CNB (FCNB) for strong analytics of cloud big data. The proposed system applied on product review data that taken form the cloud of AWS. The Evaluation of Hadoop Map Reduce done with important benchmarks as Mean Absolute Percentage Error (MPAE), Root Mean Square Error (RMSE), and runtime for word count, sort, inverted index. Also, the evaluation of DM models with Hadoop Map Reduce system done by using accuracy, sensitivity, specificity, memory, and running time. Experiments have shown that FCNB is effective in addressing the problem of big data. 相似文献