首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   37篇
  免费   1篇
  国内免费   7篇
教育   19篇
科学研究   11篇
综合类   3篇
信息传播   12篇
  2021年   2篇
  2020年   5篇
  2019年   2篇
  2018年   1篇
  2017年   4篇
  2015年   3篇
  2014年   9篇
  2013年   5篇
  2012年   6篇
  2011年   5篇
  2009年   2篇
  2007年   1篇
排序方式: 共有45条查询结果,搜索用时 15 毫秒
1.
分析大量的非结构化文本数据已经成为各类研究及数据分析中的重要任务。本文借助Hadoop分布式计算平台,搭建了一个基于IKAnalyzer开源工具的文本分析应用系统框架,系统基于Spring Boot架构进行了Web应用平台搭建,结合node.js技术构建了数据驱动的Web前端UI呈现。研究实践了从文档收集、文档预处理、分布式计算、中文分词及词频分析、可视化呈现的初步流程。借助该系统平台,研究分别以金庸小说文本数据及采集的贵州省极贫乡镇教育基础数据作为语料数据进行了相关文本统计分析实践。  相似文献   
2.
文章通过使用Hadoop计算平台,以K-Means算法为例,分析其在Mahout中的并行化策略。通过对读者的借阅数据进行分析研究,应用数据挖掘技术逐步建立应用模型,有效地将数据挖掘技术与图书馆个性化服务紧密地结合在一起。  相似文献   
3.
以大数据应用技术和能源-经济-环境协调发展理论为基础,融合大数据和能源-经济-环境三位一体两种思维,提出能源-经济-环境(3E)大数据平台的框架构想和运营模式,为大数据背景下分析能源、经济、环境复杂系统,挖掘大数据背后所隐藏的关联规则,将不规则、散乱的数据变成政府、企业、研究机构等各类组织的信息资源提供数据支撑、工具支撑、方法论支撑等研究平台。  相似文献   
4.
作为深受开发者青睐的主流大数据平台,Hadoop在数据的处理、分析及应用上拥有着其他平台不可比拟的优势。在介绍了大数据定义和Hadoop生态系统架构的基础上,分别对基于Hadoop提出的大数据存储、分析、管理、安全及应用等关键问题的解决方案进行了研究和综述。最后,对基于Hadoop的大数据平台的研究和应用发展方向进行了展望。  相似文献   
5.
针对传统HDFS在存取海量小文件时出现的I/O性能瓶颈问题,本文提出了一种优化的HDFS存取策略.通过文件预处理、增加元数据信息和元数据批处理操作等优化策略,比较好地解决了传统HDFS处理海量小文件的性能问题.并通过试验证明了该方法的有效性.  相似文献   
6.
随着大数据时代的到来,聚类分析算法将面临如数据量巨大、数据维数增加等挑战,分布式处理是解决这类问题的方法之一.本研究将ROCK算法与Hadoop平台相结合,按照分布式处理原则,通过计算机集群模式去处理大规模的多样性数据.实验证明,在Hadoop平台下的ROCK聚类算法很大程度上提升了对高维数据进行聚类的能力.  相似文献   
7.
随着互联网和社交网络的发展,个人信息越来越多地暴露在网络空间中,有效收集和挖掘这些信息可发现所需要的人才信息。设计了一个人才发现与推荐系统,该系统基于Hadoop平台,利用网络爬虫程序寻找网页,通过信息抽取技术获取页面内容,利用lucene的分词器提取文本中的关键词,根据关联规则算法挖掘出关联关键词,采用基于相似项的策略推荐人才。系统为企业提供了一种基于网页数据的技术人才发现和推荐工具,节约了大量时间和成本。  相似文献   
8.
爆炸式增长的数据要求高效率地使用计算资源,Hadoop是解决大数据处理的一个方向,不过Ha-doop平台还处于发展中,很多地方还有待完善。对Hadoop自带的三种调度器的优缺点进行分析,针对希望区分和动态改变作业服务质量的情况提出了动态优先调度算法。实验结果表明动态优先调度算法能够在作业的运行中动态改变作业的优先级,在效率上也有所提升。  相似文献   
9.
HDFS;肯容错性好、传输效率高等优点。MapReduce对数据采用海量处理的方式。文章根据笔者对HDFS和MapReduce的理解发表一些自己的看法。  相似文献   
10.
In Information Retrieval (IR), the efficient indexing of terabyte-scale and larger corpora is still a difficult problem. MapReduce has been proposed as a framework for distributing data-intensive operations across multiple processing machines. In this work, we provide a detailed analysis of four MapReduce indexing strategies of varying complexity. Moreover, we evaluate these indexing strategies by implementing them in an existing IR framework, and performing experiments using the Hadoop MapReduce implementation, in combination with several large standard TREC test corpora. In particular, we examine the efficiency of the indexing strategies, and for the most efficient strategy, we examine how it scales with respect to corpus size, and processing power. Our results attest to both the importance of minimising data transfer between machines for IO intensive tasks like indexing, and the suitability of the per-posting list MapReduce indexing strategy, in particular for indexing at a terabyte-scale. Hence, we conclude that MapReduce is a suitable framework for the deployment of large-scale indexing.  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号