首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
《柳州师专学报》2015,(6):108-110
K-means算法是一种基于划分的方法,该算法对初始聚类中心的选取依赖性极大,初始中心值的不同导致聚类效果不稳定.为此,本文利用几何概率的思想,认为每个数据点都是等概率的存在于数据集,通过计算每个数据点的点概率值,结合距离因素,选择K个点作为初始聚类中心.实验证明,改进后的K-means算法聚类效果更好.  相似文献   

2.
针对k-means算法事先必须知道聚类的数目,难以确定初始中心以及受异常点影响很大等缺点,提出了一种改进的k-means聚类算法。改进后的算法首先使用复合形粒子群算法来选取聚类的初始中心点,然后使用k-means算法快速收敛获取聚类结果。Iris测试数据集的实验结果表明了改进后的算法能够合理区分不同类型的簇集,可以有效地识别异常点,具有较好的性能。  相似文献   

3.
K-means算法是解决聚类问题的经典算法,在满足一定的条件情况下,聚类的结果比较好.但这种算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动.针对这种缺陷,提出了一种新的基于数据样本分布选取初始聚类中心的算法.  相似文献   

4.
传统的K—means算法对初始聚类中心敏感,聚类的结果随不同的初始输入而波动.为了消除这种敏感性,提出了一种改进的K-means算法,改善聚类算法中选取初值的依赖性,提高聚类结果的稳定性.仿真实验结果表明:改进后的K-means算法优于原始算法.  相似文献   

5.
K-中心点聚类算法对噪声和孤立点的敏感性小,比较适用于增长速度快、更新频繁的电子地图数据,但K-中心点聚类算法初始中心点的选择会直接影响算法的稳定性和准确性,容易陷入局部最优解,从而影响聚类效果。提出一种基于改进K-中心点的电子地图数据质量检查算法,通过对样本数据集进行网格划分,结合样本密度信息选取初始中心点,解决了算法依赖样本数据实际分布的问题。评估实验结果表明,改进算法较K-中心点算法正确率提升了9.56%,效率提升了56.33%。  相似文献   

6.
针对传统 K-means 算法随机选取初始聚类中心导致聚类结果随机性大、优劣不定的缺点,通过定义局部方差,利用方差反映数据密集程度的特性,提出一种基于最小 局部方差优化初始聚类中心的 K-means 算 法。该算法选取数据集中局部方差最小的点作为一个初始聚类中心,并利用数据信息更新数据集,直到选到 k个初始聚类中心,实现初始聚类中心优化。基于 UCI 数据集与人工数据集进行实验,与传统 K-means 算法及最小方差优化初始聚类中心的 K-means 算法进行性能比较。实验结果表明,基于最小局部方差优化初始聚类中心的 K-means算法具有良好的聚类效果和很好的鲁棒性,且聚类时间较短,验证了算法有效性和优越性。  相似文献   

7.
对初始中心点优化的k-means算法进行了研究,介绍了典型的初始中心点优化的k-means算法,并在其算法基础上提出了改进的算法。  相似文献   

8.
针对ISODATA对初始聚类点选取较为敏感,不能处理噪声点的缺陷,提出一种基于结合密度最大的改进型ISODATA的划分聚类方法D-ISODATA。基于高局部密度点距离和局部密度最大原则,优化聚类初始点并去除噪声点。根据考察对象所处空间区域的密度分布情况划分基本簇,结合ISODATA聚类算法良好的自适应性,有效地对数据集进行分类。实验表明,这种基于密度聚类的改进型ISODATA算法能有效去除噪声点,改善初始中心点选择对最后聚类算法的影响,并且具有良好的自适应性,对于数据集处理的准确性优于传统K-means算法和ISODATA算法。  相似文献   

9.
随着如今数据量的爆发式增长,传统的数据挖掘方法已经远远不能满足人们需求,K-means聚类作为一种经典的聚类算法,其应用领域很广。但是K-means算法在随机选取初始聚类K个中心时,容易使聚类结果不稳定,因此提出基于核函数的K-means聚类算法。与此同时,结合MapReduce分布式框架对改进后的K-means聚类算法作分布式计算。研究结果表明,基于高斯核函数的K-means聚类在分布式下的计算能够加速K-means聚类过程,且结果优于单独基于核密度估计的K-means算法。  相似文献   

10.
K-means算法在聚类过程中随机选取k个初始聚类中心,容易造成聚类结果不稳定。针对该问题,提出PCA-TDKM算法:使用主成分分析法对数据对象集合的属性进行降维,提取出主属性,去掉无关属性,从而加速聚类过程;基于最小生成树算法及树的剪枝方法将数据对象划分为k个初始聚类簇,然后进行剪枝生成k棵子树,计算每棵子树中所有数据对象的均值,作为初始聚类中心;利用基于密度与最大最小距离的算法思想进行聚类。将PCA-TDKM算法与K-means、KNE-KM、QMC KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定、聚类准确率高。  相似文献   

11.
聚类分析是数据挖掘和机器学习的一个重要分支,应用范围广,但在聚类分析过程中大量敏感信息的泄露对用户构成威胁。因此,在聚类分析过程中实现隐私保护至关重要。传统基于差分隐私(DP)的k-means聚类算法由于存在盲目选择初始中心点、对异常点敏感度较高等问题,导致在保护数据隐私时,出现聚类可用性较低的情况。针对该问题提出一种改进的基于差分隐私保护的(IDP)k-means聚类算法以提高聚类可用性,并进行理论分析和对比实验。理论分析表明,该算法满足ε-差分隐私;仿真实验结果表明,在同一隐私预算下,k-means算法改进后在聚类可用性上优于其它差分隐私k-means聚类算法,在同一数据集与同一隐私参数下,改进k-means算法在数据可用性方面比传统算法提高了将近5个百分点。  相似文献   

12.
一种改进的k-means聚类算法   总被引:2,自引:0,他引:2  
针对k-means算法事先必须获知聚类数目以及难以确定初始中心的缺点,提出了一种改进的k-means聚类算法.首先引入轮廓系数的概念,通过计算不同K值下簇集中各对象的轮廓系数确定事先未知分类信息的数据集中所包含的最优聚类数Kopt;然后通过凝聚层次聚类的方法获得数据集的分布,确定初始聚类中心;最后利用传统的k-means方法完成聚类.理论分析表明,所提出的算法具有适度的计算复杂度.IRIS测试数据集的实验结果表明了该算法能够合理区分不同类型的簇集,且可以有效地识别离群点,聚合后的结果簇集具有较低的熵值.  相似文献   

13.
An efficient enhanced k-means clustering algorithm   总被引:9,自引:0,他引:9  
INTRODUCTION The huge amount of data collected and stored in databases increases the need for effective analysis methods to use the information contained implicitly there. One of the primary data analysis tasks is cluster analysis, intended to help a user understand the natural grouping or structure in a dataset. Therefore, the development of improved clustering algorithms has received much attention. The goal of a clustering algorithm is to group the objects of a database into a set of m…  相似文献   

14.
基于核主成分降维的RBF网络降水预测   总被引:1,自引:0,他引:1  
李洁 《柳州师专学报》2012,27(1):111-117
针对径向基函数神经网络(RBF网络)的隐层节点数、中心和宽度难以确定的问题,为提高网络性能,首先采用模糊聚类分析法对样本数据进行初始聚类,以初始分类间的最小距离作为初始宽度;然后引入正交最小二乘法训练出新的数据中心、个数及权值,修改宽度为当前数据中心间的最小距离;最后采用梯度下降法训练并调整中心、宽度及权值;几种算法进行的组合优化改进,使网络泛化性能更优.由于降水影响因子众多,采用了核主成分分析法(KPCA)对样本数据进行特征提取降维预处理.对广西5月3区的日降水量使用上述模型进行预报实验,结果表明,该模型具有较好的泛化性能,预报准确率高于T213降水预报模式,具有一定的推广价值.  相似文献   

15.
由于FCM算法中的初始值需要随机的设定,这种随机性不能保证每次都能达到全局最优,也就是说如果初始聚类中心的设置具有全局的特点,那么聚类的结果才能达到全局最优。因此主要针对模糊c-均值(FCM)聚类算法对初始值很敏感,而且容易陷入局部最优解的这一特点,提出了一种分布式的模糊聚类方法。首先用分治法得到模糊聚类的全局的聚类中心值,然后再用FCM进行聚类,从而克服FCM算法对初始值敏感和容易陷入局部最优解的缺陷,达到全局最优。经仿真实验证明结果是很理想的。  相似文献   

16.
王凯  张明 《教育技术导刊》2020,19(7):161-165
家装工程数据对于委托方与受委托方均有极重要的意义。为改善传统工程类数据可视化方法在家装项目信息化过程中难以对层次多维数据进行有效处理的缺点,提出一种基于多维度转换策略的可视化方法。该方法将数据建模处理后,按数据层次类别在不同维度可视图中进行布局,最后通过属性关系映射实现不同维度的可视化视图转换。实验结果表明,多维度可视化模型在“工程—房间—墙体”的层次结构中,进度指标可视化准确率均可达到 100%。基于多维度转换策略的可视化方法不仅可直观展示家装数据层次结构,还可有效降低因主观原因导致的进度指标消费误差。  相似文献   

17.
Nonlinear errors always exist in data obtained from tracker in augmented reality (AR), which badly influence the effect of AR. This paper proposes to rectify the errors using BP neural network. As BP neural network is prone to getting into local extrema and convergence is slow, genetic algorithm is employed to optimize the initial weights and threshold of neural network. This paper discusses how to set the crucial parameters in the algorithm. Experimental results show that the method ensures that the neural network achieves global convergence quickly and correctly. Tracking precision of AR system is improved after the tracker is rectified, and the third dimension of AR system is enhanced.  相似文献   

18.
1IntroductionAugmented reality(AR)is a newtechnique based onvirtual reality,which has attracted much attention inrecent years.AR is used to describe a system thatenhances the real world by superi mposing computer-generated information on top of it.It supp…  相似文献   

19.
传统欠采样方法在处理不平衡数据问题时只考虑多数类样本的绝对位置而忽略了其相对位置,从而使产生的平衡数据集存在边界模糊问题。提出一种改进 K 均值聚类的不平衡数据欠采样算法(UD-PK)。该算法首先利用改进的 PSO 算法迭代寻找全局最优解作为 K-means 聚类所需初始值,然后通过 K-means 进行聚类,再按照每个类别中多数类与少数类的比例定义所取多数类样本个数,并根据多数类样本与簇心距离择优选择参与平衡数据集构造。在 UCI 数据集上的对比试验表明,该算法在少数类准确率上较一些经典算法有很大提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号