期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

程国建赵倩倩《教育技术导刊》2016,15(2):146-148

随着人类产生的数据量呈指数级增长,数据的海量、多样化等特征使传统的聚类算法无法处理这些数据,而近来较为流行的Hadoop平台在处理数据的速度上也达到瓶颈。因此,专家们想要研究一种更为适合的处理平台来处理遇到的海量数据,Spark平台应运而生。首先介绍了聚类算法定义与分类,随后提出了Spark平台,包括Spark核心技术(RDD)、Spark和Hadoop的对比,并介绍了K means在Spark平台上的实现,最后总结了Spark的应用现状并对其未来发展进行了展望。相似文献

2.

基于Hadoop的数据聚类算法研究

徐正巧赵德伟《教育技术导刊》2015,14(2):4-5

聚类算法一直备受研究者青睐。随着信息技术和数据技术的发展,数据的种类和数量急剧增长,云计算平台Hadoop成为这些数据存储和处理的新平台,基于云计算平台Hadoop的聚类算法逐渐成为热门。针对数据挖掘中的聚类问题,依托云计算模式及Hadoop平台,研究了K-means算法,有效改变了现有算法的局限性。相似文献

3.

基于MapReduce的ROCK聚类算法

赵雪 ;陈龙飞《河北职业技术师范学院学报》2014,(1):26-32

随着大数据时代的到来,聚类分析算法将面临如数据量巨大、数据维数增加等挑战,分布式处理是解决这类问题的方法之一.本研究将ROCK算法与Hadoop平台相结合,按照分布式处理原则,通过计算机集群模式去处理大规模的多样性数据.实验证明,在Hadoop平台下的ROCK聚类算法很大程度上提升了对高维数据进行聚类的能力. 相似文献

4.

基于改进遗传算法的K-means聚类方法

左倪娜  《教育技术导刊》2016,15(4):32-34

K-means算法是聚类分析划分方法中的一种常用方法,也是目前在数据分析方法中最有应用前景的方法之一。但K mean算法对初始聚类中心十分敏感,这对处理学生成绩等数据而言,会导致聚类结果极为不稳定。为此,提出基于改进遗传算法的K means聚类算法。该算法利用遗传算法解决初始聚类中心,提高聚类结果的稳定性,但存在前期过早收敛和后期收敛过慢的缺点。将改进遗传K means聚类算法应用于高职高专的学生考试成绩分析中,可以很好地解决传统遗传聚类算法对聚类结果的不稳定性问题,并通过聚类结果对学生考试成绩进行分类评价,利用所获得的数据聚类结果指导教学,从而提高教学质量。相似文献

5.

基于Hadoop的多核果蝇-Kmeans聚类算法

李小川刘媛华《教育技术导刊》2018,17(4):51-53

针对Kmeans算法对海量数据聚类效率过低的不足,基于Hadoop的分布式架构思想,提出一种多核果蝇-Kmeans聚类算法（MKFOA-Kmeans）。以每次迭代后果蝇位置为聚类中心进行一次Kmeans聚类算法,综合了果蝇优化算法强全局搜索能力以及Kmeans算法强局部搜索能力的优点。MapReduce框架简化了算法执行过程,避免了由于存储空间不足而造成的算法失效。在由普通硬件搭建的Hadoop平台下进行仿真实验,表明MKFOA-Kmeans算法对大数据的聚类准确率高,并且随着数据量的增加,聚类效率优势也愈加明显。相似文献

6.

基于Spark平台的热点话题发现算法并行化研究

王新星《教育技术导刊》2016,15(9):51-54

话题发现中最常用的方法是基于增量式的Single Pass聚类算法,但是其依赖于文档的输入顺序且效率低下。针对这两个问题,提出在多层次话题发现基础上,基于Spark平台的算法并行化,将传统的Kernel K means算法进行并行化处理,以并行化的方式对数据进行初步聚类,并对后续数据进行增量式聚类。实验表明,多层次处理提高了话题的准确性;同时,并行化方式相比传统的话题发现方法,其效率有较大提高。相似文献

7.

聚类算法在市政绩效评估中的应用

张小川严杰朱常鹏《教育技术导刊》2015,14(11):48-51

针对K means聚类算法,结合市政绩效评估的需要进行改进。以稳定K means聚类算法中心和选取最优聚类个数为目的,提出基于Kruskal算法和轮廓系数法的K means聚类算法。针对区县不同结构实际市政绩效评估数据,按照商业智能和IQR规则进行预处理,然后利用改进的K means聚类算法对预处理后的数据进行聚类分析。实验结果表明,该算法能够有效地确立各市政事件、部件的发生频数等级,帮助市政管理者发现各市政事件、部件之间关联关系,提高其科学决策能力。相似文献

8.

基于Hadoop云计算平台的新浪微博数据聚类分析算法研究

段庆伟铁木巴干《辽宁科技学院学报》2017,19(4)

近年来,随着Web2.0的兴起,互联网信息更加丰富,数据规模日益增加,传统数据挖掘技术难以满足需要.云计算为解决这一问题提出了一种新方法.本文首先对开源的云计算技术Hadoop进行介绍,然后,对分布式进行了设计.本文将聚类过程分为三个步骤,分别对TF-IDF关键词提取、LDA 模型训练和K －means 聚类过程进行MapReduce 的实现,并使用公共微博数据集进行了聚类实验,并与传统聚类方法进行对比,结果表明,本文所使用LDA 建模的分布式算法对中文微博数据聚类效果较好. 相似文献

9.

一种基于MapReduce的频繁项集挖掘算法

孙兵率《教育技术导刊》2015,14(4):75-77

随着大数据时代的到来,针对Apriori算法和FP Growth算法在挖掘海量规模数据频繁项集时,存在内存不足、计算效率低等问题,提出一种Aggregating_FP算法。该算法结合MapReduce并行计算框架与FP Growth算法,实现频繁项集的并行挖掘,对每个项进行规约合并处理,仅输出包含该项的前K个频繁项集,提高了海量数据决策价值的有效性。在Hadoop分布式计算平台上对多组规模不同的数据集进行测试。实验结果表明,该算法适合大规模数据的分析和处理,具有较好的可扩展性。相似文献

10.

基于Hadoop的分布式平台实现

韩震孙红《教育技术导刊》2017,16(3):56-58

互联网的迅速发展产生了各种海量数据,快速有效处理海量数据是云计算的目标。Hadoop作为典型的云计算平台可高效处理海量数据。介绍了Hadoop相关概念,包括HDFS、MapReduce等众多子项目;阐述了Hadoop完全分布式平台搭建,包括环境配置、搭建方法等;通过数据处理实验验证了Hadoop分布式平台的有效性。相似文献

11.

Hadoop和Spark在实验室中部署与性能评估

《实验室研究与探索》2015,(11):77-81

随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了详细说明并对hadoop和spark的性能进行比较,包括Hadoop和Spark集群的安装和部署,Spark集成开发环境的建立,同一组数据集在两个平台上进行Kmeans聚类的时间对比。对于建设分布式计算平台具有一定的指导意义。相似文献

12.

基于K-means聚类与二次分水岭的果蔬图像分割方法

巨志勇李开亮毛颖颖《教育技术导刊》2018,17(6):217-219

为解决传统分水岭算法在果蔬图像分割过程中产生的过分割问题,提出了基于K means聚类与二次分水岭的果蔬图像分割方法。该方法首先通过自适应中值滤波、直方图均衡化等方法实现图像增强,利用分水岭算法实现图像预分割,然后对预分割结果进行K means聚类和形态学处理,并在此基础上利用分水岭算法实现果蔬图像二次分割。实验结果表明,该方法很好地解决了分水岭算法引起的过分割问题,为后续图像分类识别奠定了基础。相似文献

13.

基于Hadoop的数据挖掘实践平台研究与应用

《赤峰学院学报(自然科学版)》2020,(2)

针对数据挖掘实践课程现状和实际教学效果,结合数据挖掘实践课程特点,在分析总结多种数据挖掘工具的基础上,设计了一种基于Hadoop的数据挖掘实践平台.架构在分布式计算平台Hadoop上的数据挖掘实践平台,克服了传统数据挖掘工具的种种问题,其能够支持数据挖掘的标准流程,处理TB级的海量数据用于实践挖掘,为数据挖掘基础实践提供了丰富的数据挖掘算法用于建模.同时,基于Hadoop的数据挖掘实践平台提供了灵活多样的应用开发接口,能够支持第三方软件商集成开发,快速构建大型海量数据挖掘的应用系统,完成综合数据挖掘应用的二次开发.基于Hadoop的数据挖掘实践平台,为数据挖掘实践与科研提供了海量数据处理能力的数据挖掘平台,激励学生以竞赛模式学习和完成数据挖掘实践,从而促进了学生创新实践能力的培养. 相似文献

14.

基于谱聚类算法的音频聚类研究

徐秀芳徐森徐静安晶《教育技术导刊》2016,15(11):36-38

提出一种新颖的基于谱聚类的音频聚类算法,首先对音频数据进行预处理,得到三维音频向量,然后根据向量之间的距离计算音频相似度,最后设计谱聚类算法获得音频数据聚类结果。在网易云音乐数据上的对比实验表明,与K means算法和快速查找密度峰值聚类算法相比,该算法获得的聚类结果更加优越。相似文献

15.

基于Mapreduce的afsa_km聚类算法并行实现

陈书会周莲英《教育技术导刊》2016,15(7):51-53

针对k-means算法对初始聚类中心敏感的问题,提出利用人工鱼群算法去优化k均值算法,即先通过人工鱼的行为进行全局搜索,得到一个初始的全局最优划分后再进行聚类,运用云平台Hadoop的并行处理框架Mapreduce对混合算法实施并行处理,从而快速准确地处理大量数据。实验结果表明,改进后的算法在执行速度、准确性、加速比及可扩展性方面都有所提高。相似文献

16.

基于二分K-means的协同过滤推荐算法

吴金李张建明《教育技术导刊》2017,16(1):26-28

针对传统协同过滤推荐算法中存在的数据稀疏性问题,提出了一种基于二分K means的协同过滤推荐算法。该算法在K means算法的基础上,为了降低初始质点选择对聚类结果的影响,在运行中逐个添加质点。首先初始化评分数据并将其作为初始簇,然后选择合适的簇随机产生两个质点将簇分裂为两个簇,重复上述步骤,直到聚类完成。最后为了降低不同用户评分标准差异,将用户评分的平均值和用户同簇内相互间的相似度相结合,计算预测评分矩阵,生成推荐结果。实验结果表明,改进后的算法较好地解决了数据稀疏问题,提高了推荐质量。相似文献

17.

用于客户分类的K-means算法

陈琍《钦州学院学报》2006,21(6):36-37,41

从数据挖掘方法中常用的聚类算法的基本原理，将聚类算法中的K—means算法用于客户关系管理系统中，实现客户分类．并且对K—means算法进行了改进，根据客户信用特征对客户进行预分类，提高了算法的效率．相似文献

18.

一种基于模糊数学思想的K均值算法

张昌明《教育技术导刊》2016,15(5):41-43

随着云计算、移动计算等互联网技术的快速发展,海量数据分析已成为企业战略决策、营销推广的基础,海量数据挖掘愈显重要。传统的K均值算法作为一种硬聚类算法存在诸多问题,例如数据划分武断、准确率较低等。引入模糊数学思想,提出了一种模糊K均值算法,基于隶属度关系对数据进行了有效的聚类分析,以提高数据挖掘的准确度。相似文献

19.

基于Hadoop平台的任务调度方案分析

周航申秋慧王迤冉《周口师范学院学报》2013,30(2):89-91

信息社会是数据爆炸的时代,分布式并行计算在应对海量数据处理等大作业方面非常有效.Apache基金会下的Hadoop正是这样一个开源的分布式系统基础构架.首先介绍了Hadoop平台下作业的分布式运行机制,然后对Hadoop平台自带的3种任务调度器做分析和比较,最后在分析JobTracker类文件的基础上指出了创建自定义任务调度器所需完成的工作. 相似文献

20.

基于Hadoop的煤矿图像PCA-SIFT特征提取算法研究

米向荣曹建芳史昊《教育技术导刊》2018,17(12):81-86

大数据技术已经成为当下热点问题,Hadoop技术在煤矿领域运用也引起了广泛关注。针对传统监控模式下煤矿视频监控系统图像采集点多、历史留存数据量大、不利于后续查找特征图像等问题,提出一种Hadoop平台下PCA-SIFT算子的图像特征提取算法,研究并改进了MapReduce并行编程模型的任务设计,对传统尺度不变特征转换算法进行了并行化设计,在Hadoop集群下实现了海量煤矿图像的PCA-SIFT并行特征提取。使用汾西矿务局煤矿图像井下数据集进行实验,算法SIFT特征点检测效果好,运行耗时少。在图像数量庞大时,系统加速比几乎呈线性增长趋势,验证了算法处理大规模煤矿图像数据的有效性。相似文献