首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
《柳州师专学报》2015,(6):108-110
K-means算法是一种基于划分的方法,该算法对初始聚类中心的选取依赖性极大,初始中心值的不同导致聚类效果不稳定.为此,本文利用几何概率的思想,认为每个数据点都是等概率的存在于数据集,通过计算每个数据点的点概率值,结合距离因素,选择K个点作为初始聚类中心.实验证明,改进后的K-means算法聚类效果更好.  相似文献   

2.
针对传统 K-means 算法随机选取初始聚类中心导致聚类结果随机性大、优劣不定的缺点,通过定义局部方差,利用方差反映数据密集程度的特性,提出一种基于最小 局部方差优化初始聚类中心的 K-means 算 法。该算法选取数据集中局部方差最小的点作为一个初始聚类中心,并利用数据信息更新数据集,直到选到 k个初始聚类中心,实现初始聚类中心优化。基于 UCI 数据集与人工数据集进行实验,与传统 K-means 算法及最小方差优化初始聚类中心的 K-means 算法进行性能比较。实验结果表明,基于最小局部方差优化初始聚类中心的 K-means算法具有良好的聚类效果和很好的鲁棒性,且聚类时间较短,验证了算法有效性和优越性。  相似文献   

3.
一种改进的k-means聚类算法   总被引:2,自引:0,他引:2  
针对k-means算法事先必须获知聚类数目以及难以确定初始中心的缺点,提出了一种改进的k-means聚类算法.首先引入轮廓系数的概念,通过计算不同K值下簇集中各对象的轮廓系数确定事先未知分类信息的数据集中所包含的最优聚类数Kopt;然后通过凝聚层次聚类的方法获得数据集的分布,确定初始聚类中心;最后利用传统的k-means方法完成聚类.理论分析表明,所提出的算法具有适度的计算复杂度.IRIS测试数据集的实验结果表明了该算法能够合理区分不同类型的簇集,且可以有效地识别离群点,聚合后的结果簇集具有较低的熵值.  相似文献   

4.
Kmeans算法存在两个主要缺陷,导致聚类结果准确率较低。为改善聚类效果,提出一种DGK-Kmeans算法。该算法选用核密度估计处理数据,得到备选聚类中心,依据平均类间相似度动态增加初始聚类中心个数,直至平均类间相似度大于前次计算值时,选取平均类内相似度最小时对应的聚类中心为初始聚类中心,进行Kmeans聚类计算。采用UCI标准数据集进行实验,证明改进后的DGK-Kmeans算法在聚类准确率和稳定性方面有很大提高。  相似文献   

5.
K-means算法在聚类过程中随机选取k个初始聚类中心,容易造成聚类结果不稳定。针对该问题,提出PCA-TDKM算法:使用主成分分析法对数据对象集合的属性进行降维,提取出主属性,去掉无关属性,从而加速聚类过程;基于最小生成树算法及树的剪枝方法将数据对象划分为k个初始聚类簇,然后进行剪枝生成k棵子树,计算每棵子树中所有数据对象的均值,作为初始聚类中心;利用基于密度与最大最小距离的算法思想进行聚类。将PCA-TDKM算法与K-means、KNE-KM、QMC KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定、聚类准确率高。  相似文献   

6.
针对K-means算法对初始聚类中心敏感、容易收敛于局部极值和人工鱼群算法最大步长固定、寻优精度不高、后期收敛速度慢的问题,提出一种K-means和人工鱼群相结合的聚类算法。该算法将K-means聚类中心引入人工鱼群适应度函数,自动确定近似全局最优的初始聚类中心,并将其作为K-means初值详细进行局部搜索,以提高精度。同时采用淘汰机制和自适应的最大步长策略,优化人工鱼群算法性能。在Iris、Wine数据集和EPA-HTTP应用日志数据上对IAFSA KM算法进行实验仿真分析,验证了算法的有效性和可行性。  相似文献   

7.
针对k-means算法事先必须知道聚类的数目,难以确定初始中心以及受异常点影响很大等缺点,提出了一种改进的k-means聚类算法。改进后的算法首先使用复合形粒子群算法来选取聚类的初始中心点,然后使用k-means算法快速收敛获取聚类结果。Iris测试数据集的实验结果表明了改进后的算法能够合理区分不同类型的簇集,可以有效地识别异常点,具有较好的性能。  相似文献   

8.
针对ISODATA对初始聚类点选取较为敏感,不能处理噪声点的缺陷,提出一种基于结合密度最大的改进型ISODATA的划分聚类方法D-ISODATA。基于高局部密度点距离和局部密度最大原则,优化聚类初始点并去除噪声点。根据考察对象所处空间区域的密度分布情况划分基本簇,结合ISODATA聚类算法良好的自适应性,有效地对数据集进行分类。实验表明,这种基于密度聚类的改进型ISODATA算法能有效去除噪声点,改善初始中心点选择对最后聚类算法的影响,并且具有良好的自适应性,对于数据集处理的准确性优于传统K-means算法和ISODATA算法。  相似文献   

9.
K-means算法是解决聚类问题的经典算法,在满足一定的条件情况下,聚类的结果比较好.但这种算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动.针对这种缺陷,提出了一种新的基于数据样本分布选取初始聚类中心的算法.  相似文献   

10.
选取初始聚类中心是多数聚类算法的首要步骤,往往影响着聚类的效果。为了避免算法迭代过程中易陷入局部最优的问题,本文提出了一种基于模糊交叉网格的初始聚类中心选取方法。算法通过对数据空间网格化后,以网格交点为中心的邻近网格组成网格空间,根据数据点的隶属度统计每个网格空间的密度,再通过局部最大网格空间选取K个初始聚类中心。在真实数据集上进行实验,结果表明该方法在保证了聚类效果的同时,提高了收敛速度。  相似文献   

11.
为了对社会化标注系统中的标签进行有效聚类,并针对传统K-medoids算法存在的聚类结果易受初始聚类中心影响的问题,本文提出了一种改进的K-medoids标签聚类算法.该算法应用社会化标签的余弦相似值进行初始聚类中心的选择,然后进行标签聚类.对Delicious标签数据集的实验结果表明算法具有较强的的可行性和有效性.  相似文献   

12.
传统的K—means算法对初始聚类中心敏感,聚类的结果随不同的初始输入而波动.为了消除这种敏感性,提出了一种改进的K-means算法,改善聚类算法中选取初值的依赖性,提高聚类结果的稳定性.仿真实验结果表明:改进后的K-means算法优于原始算法.  相似文献   

13.
传统欠采样方法在处理不平衡数据问题时只考虑多数类样本的绝对位置而忽略了其相对位置,从而使产生的平衡数据集存在边界模糊问题。提出一种改进 K 均值聚类的不平衡数据欠采样算法(UD-PK)。该算法首先利用改进的 PSO 算法迭代寻找全局最优解作为 K-means 聚类所需初始值,然后通过 K-means 进行聚类,再按照每个类别中多数类与少数类的比例定义所取多数类样本个数,并根据多数类样本与簇心距离择优选择参与平衡数据集构造。在 UCI 数据集上的对比试验表明,该算法在少数类准确率上较一些经典算法有很大提升。  相似文献   

14.
提出了一种基于郭涛算法的聚类算法,在WEKA平台上通过使用Iris数据集和Glass数据集对基于郭涛算法的聚类算法和K-means算法进行对比实验,验证了基于郭涛算法的聚类算法的有效性。  相似文献   

15.
传统K中心点算法虽然改进了K均值算法对噪声和孤立点数据敏感的不足,但是仍存在着初始聚类中心和聚类个数k难以确定的问题,因此,针对算法存在的问题,提出一种基于密度的改进K中心点算法。该算法会根据数据集数据的分布情况自主确定聚类个数k和k个聚类中心点。最后,通过在入侵检测领域KDD Cup99数据集上实验测试表明,改进K中心点算法不仅能够自动形成k个聚类,而且具有较高的入侵检测率和较低的漏报率,聚类和入侵检测的效果均优于传统的K中心点算法。  相似文献   

16.
随着如今数据量的爆发式增长,传统的数据挖掘方法已经远远不能满足人们需求,K-means聚类作为一种经典的聚类算法,其应用领域很广。但是K-means算法在随机选取初始聚类K个中心时,容易使聚类结果不稳定,因此提出基于核函数的K-means聚类算法。与此同时,结合MapReduce分布式框架对改进后的K-means聚类算法作分布式计算。研究结果表明,基于高斯核函数的K-means聚类在分布式下的计算能够加速K-means聚类过程,且结果优于单独基于核密度估计的K-means算法。  相似文献   

17.
K-means算法是聚类分析划分方法中的一种常用方法,也是目前在数据分析方法中最有应用前景的方法之一。但K mean算法对初始聚类中心十分敏感,这对处理学生成绩等数据而言,会导致聚类结果极为不稳定。为此,提出基于改进遗传算法的K means聚类算法。该算法利用遗传算法解决初始聚类中心,提高聚类结果的稳定性,但存在前期过早收敛和后期收敛过慢的缺点。将改进遗传K means聚类算法应用于高职高专的学生考试成绩分析中,可以很好地解决传统遗传聚类算法对聚类结果的不稳定性问题,并通过聚类结果对学生考试成绩进行分类评价,利用所获得的数据聚类结果指导教学,从而提高教学质量。  相似文献   

18.
离群数据检测是找出与正常数据不一致的数据。学生评教中由于某种原因,会出现一些评教噪声数据。针对学生评教中噪声数据的特征,提出了一个基于熵值距离的离群点检测算法,该算法通过比较每个数据点所对应的熵值和整个数据集的熵值,来判断数据点的离群程度。仿真结果表明该算法对学生评教中出现的噪声数据具有较好的过滤效果。  相似文献   

19.
针对传统协同过滤推荐算法在大数据环境下存在数据稀疏性及计算复杂性等问题,提出一种双向聚类协同过滤推荐算法。该算法首先从用户维度和项目维度两个方向分别进行属性聚类,然后在目标用户和目标项目所在类簇中分别使用改进后的相似度计算方法进行协同过滤推荐,最后通过平衡因子综合预测评分并形成最终推荐列表。在 MovieLens 公开数据集上进行实验,结果表明,该算法(DCF)相比传统协同过滤推荐算法(TCF)、基于用户聚类的协同过滤推荐算法(UCF)以及基于项目聚类的协同过滤推荐算法(ICF),在平均绝对误差上分别降低了 16%、8.1%、7.5%,有效提高了推荐精度。  相似文献   

20.
针对原始k-means算法存在问题,提出一种无需指定k值和初始聚类中心的能够依据数据集内在特性自动完成聚类的改进k-means算法。最后,利用入侵检测领域应用最为广泛的数据集KDD CUP99验证了改进算法的性能。实验结果表明,改进算法无需任何输入,且具有较高的检测率和较低的误报率,性能较原始算法均有提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号