首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
随着如今数据量的爆发式增长,传统的数据挖掘方法已经远远不能满足人们需求,K-means聚类作为一种经典的聚类算法,其应用领域很广。但是K-means算法在随机选取初始聚类K个中心时,容易使聚类结果不稳定,因此提出基于核函数的K-means聚类算法。与此同时,结合MapReduce分布式框架对改进后的K-means聚类算法作分布式计算。研究结果表明,基于高斯核函数的K-means聚类在分布式下的计算能够加速K-means聚类过程,且结果优于单独基于核密度估计的K-means算法。  相似文献   

2.
推动微博舆情事件演化是众多意见领袖共同作用的结果,因此识别意见领袖群对于舆情事件的监管具有重要作用。提出微博舆情话题下的意见领袖群识别模型,综合考虑用户属性特征、交互特征和网络结构,设计微博舆情下用户影响力评估算法MUR,并结合K-means算法形成MUK-means算法,实现对意见领袖群的识别。以新浪微博数据进行实验,MUK-means算法的聚类时间(14s)远远少于传统K-means算法(32s),而且基于MUK-means算法得到的意见领袖群的用户覆盖率高达86.3%。实验结果表明,MUK-means算法改进了K-means算法初始聚类中心不确定的缺点,不仅提高了聚类效率,而且实现了对意见领袖群的有效识别。  相似文献   

3.
针对传统 K-means 算法随机选取初始聚类中心导致聚类结果随机性大、优劣不定的缺点,通过定义局部方差,利用方差反映数据密集程度的特性,提出一种基于最小 局部方差优化初始聚类中心的 K-means 算 法。该算法选取数据集中局部方差最小的点作为一个初始聚类中心,并利用数据信息更新数据集,直到选到 k个初始聚类中心,实现初始聚类中心优化。基于 UCI 数据集与人工数据集进行实验,与传统 K-means 算法及最小方差优化初始聚类中心的 K-means 算法进行性能比较。实验结果表明,基于最小局部方差优化初始聚类中心的 K-means算法具有良好的聚类效果和很好的鲁棒性,且聚类时间较短,验证了算法有效性和优越性。  相似文献   

4.
互联网时代,网络焦点话题讨论对当代高校学生的思想有很大影响,因此对高校舆情进行监测具有十分重要的意义。通过改进的K-means算法对高校舆情进行聚类,获取舆情热点。通过聚类算法获取热点话题,进而对热点舆情话题进行引导,对改进高校学生思想政治工作作用显著。对改进算法进行实验,结果表明该算法准确率达到75%,比传统算法高出8%,改善了传统算法的聚类效果。  相似文献   

5.
传统Slope One算法未考虑用户相似性和项目相似性对评分效果的影响,从而导致推荐准确率不高,并且在当前大数据背景下,传统Slope One算法运行效率低下。针对以上问题,提出一种基于Spark的改进加权Slope One算法,该算法融入了相似性计算、活跃用户筛选和用户聚类等技术,并在Spark平台上实现了并行化。通过在MovieLens数据集上进行试验验证,并比较算法在Spark和Hadoop平台并行化的运行效率,证实了该算法可以有效降低MAE,且在Spark平台下运行效率更高,更适用于大数据处理场景。  相似文献   

6.
K-means算法在聚类过程中随机选取k个初始聚类中心,容易造成聚类结果不稳定。针对该问题,提出PCA-TDKM算法:使用主成分分析法对数据对象集合的属性进行降维,提取出主属性,去掉无关属性,从而加速聚类过程;基于最小生成树算法及树的剪枝方法将数据对象划分为k个初始聚类簇,然后进行剪枝生成k棵子树,计算每棵子树中所有数据对象的均值,作为初始聚类中心;利用基于密度与最大最小距离的算法思想进行聚类。将PCA-TDKM算法与K-means、KNE-KM、QMC KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定、聚类准确率高。  相似文献   

7.
互联网的快速发展,使得网络成为公众发布信息和交流观点的主要平台,网络舆情成为社会舆情的重要组成部分,网络舆情数据的获取与分析为舆情态势和预警提供了技术支持,对政府掌握最新舆情动态以及我国民主法治建设、精神文明建设具有重要意义。通过对比分析,对近年来网络舆情热点的获取方法进行了研究,在理解K-means聚类算法基础上进一步改进该算法,对新闻中的关键词进行聚类分析以获得舆情热点,并给出算法实现过程。该方法为引导网络舆情发展方向提供了依据,也可以及时防范误导性言论对社会公众的消极影响。  相似文献   

8.
《柳州师专学报》2015,(6):108-110
K-means算法是一种基于划分的方法,该算法对初始聚类中心的选取依赖性极大,初始中心值的不同导致聚类效果不稳定.为此,本文利用几何概率的思想,认为每个数据点都是等概率的存在于数据集,通过计算每个数据点的点概率值,结合距离因素,选择K个点作为初始聚类中心.实验证明,改进后的K-means算法聚类效果更好.  相似文献   

9.
针对K-means算法对初始聚类中心敏感、容易收敛于局部极值和人工鱼群算法最大步长固定、寻优精度不高、后期收敛速度慢的问题,提出一种K-means和人工鱼群相结合的聚类算法。该算法将K-means聚类中心引入人工鱼群适应度函数,自动确定近似全局最优的初始聚类中心,并将其作为K-means初值详细进行局部搜索,以提高精度。同时采用淘汰机制和自适应的最大步长策略,优化人工鱼群算法性能。在Iris、Wine数据集和EPA-HTTP应用日志数据上对IAFSA KM算法进行实验仿真分析,验证了算法的有效性和可行性。  相似文献   

10.
政府公文数量巨大,不同政府网站公文分类规则不一 ,在引用和参考公文时可能发生混淆 。针对该问题,基于政府公文题目、摘要和正文内容,采用 K-means 算法对公文进行分类。首先对政府公文进行分词及去停用词等数据预处理操作,再通过词频—逆文档频率(TF-IDF)权值计算方法,将处理后的政府文本信息转换成二维矩阵,然后采用 K-means 算法进行聚类。使用清华大学 THUCTC 文本分类系统对公文聚类结果进行测试。实验结果表明,采用 K-means 算法对公文进行聚类,准确率达到 82.93%,远高于政府网站公文分类准确率。  相似文献   

11.
为了解决K-means算法中对于初值的敏感,提出了一种基于粒子群的改进的K-means聚类算法(IPSOFCM).在K-means算法中引入粒子群算法,可有效提高算法的全局搜索能力,有助于粒子更容易跳出局部束缚.实验结果证明,IPSOFCM算法聚类准确度高,稳定性好.  相似文献   

12.
The K-means algorithm is one of the most popular techniques in clustering. Nevertheless, the performance of the K- means algorithm depends highly on initial cluster centers and converges to local minima. This paper proposes a hybrid evolutionary programming based clustering algorithm, called PSO-SA, by combining particle swarm optimization (PSO) and simulated annealing (SA). The basic idea is to search around the global solution by SA and to increase the information exchange among particles using a mutation operator to escape local optima. Three datasets, Iris, Wisconsin Breast Cancer, and Ripley's Glass, have been considered to show the effectiveness of the proposed clustering algorithm in providing optimal clusters. The simulation results show that the PSO-SA clustering algorithm not only has a better response but also converges more quickly than the K-means, PSO, and SA algorithms.  相似文献   

13.
针对谱聚类算法稳定性较差的问题,提出了一种改进的半监督谱聚类算法。该算法依据图像的颜色、纹理和空间特征进行聚类,通过Bayes距离学习对相似度矩阵的内容进行修正;然后,使用半监督K—means聚类算法对调整后的特征向量进行聚类划分。仿真实验结果表明。较传统谱聚类而言该算法在准确率及稳定性上都有了显著提升。  相似文献   

14.
INTRODUCTION Visual inspection plays a vital role in assuring the quality of industrial products. Texture surface detection aims at detecting defects such as cracks, stains, broken points, etc. on texture surfaces. Due to the repetitive changes of texture gray values and structures, traditional detection methods based on intensity or edge detection are invalid, which makes texture surface detection one of the most intriguing problems during the past decades. Generally, most of previous a…  相似文献   

15.
基于向量空间模型的文档聚类算法研究   总被引:3,自引:0,他引:3  
随着网络信息的迅速增长,文档聚类技术成为了人们研究的热点课题.探讨了几种基于向量空间模型的文档聚类算法,如常见的k—means算法和凝聚层次算法,针对它们的不足提出了改进的BK-means算法和多层CFK-means算法.最后,根据一定的评价标准,得出Bk—means算法是文档聚类算法中较好的算法.  相似文献   

16.
基于层次的模糊K均值聚类算法研究   总被引:1,自引:0,他引:1  
通过对K均值聚类算法的研究,本文提出了一种基于层次聚类与模糊聚类思想的K均值聚类算法。算法首先使用层次方法对数据进行初始聚类,然后用得到的聚类数作为模糊K均值聚类中的K值,对聚类进行修正。最后通过实验,验证了该算法不需要人为假设聚类算法中的K值,而且引入了模糊隶属关系使类别的划分更接近于事实,从而证明了该算法的有效性。  相似文献   

17.
k均值算法是一个常用的局部搜索算法,它的主要缺陷是容易陷入局部极小,并且该局部极小解与全局最优解往往有很大的偏差。本文提出一个基于K-均值的迭代局部搜索文档聚类算法。该算法以k均值算法所得到的解作为初始解,从该初始解开始作局部搜索。在搜索过程中接受部分劣解。当解无法改进时,算法对所得到的局部极小解做适当强度的扰动后进行下一次的迭代,以跳出局部极小,从而拓展了搜索的范围。实验结果表明该算法对文档数据集聚类的正确性迭99%以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号