首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对传统 K-means 算法随机选取初始聚类中心导致聚类结果随机性大、优劣不定的缺点,通过定义局部方差,利用方差反映数据密集程度的特性,提出一种基于最小 局部方差优化初始聚类中心的 K-means 算 法。该算法选取数据集中局部方差最小的点作为一个初始聚类中心,并利用数据信息更新数据集,直到选到 k个初始聚类中心,实现初始聚类中心优化。基于 UCI 数据集与人工数据集进行实验,与传统 K-means 算法及最小方差优化初始聚类中心的 K-means 算法进行性能比较。实验结果表明,基于最小局部方差优化初始聚类中心的 K-means算法具有良好的聚类效果和很好的鲁棒性,且聚类时间较短,验证了算法有效性和优越性。  相似文献   

2.
现有的增量聚类算法虽然解决了数据增量和类簇重叠问题,但在距离度量时没有考虑属性重要度不同,且普遍拥有较高的时间复杂度。针对以上问题,提出一种基于属性重要度的加权三支决策增量软聚类算法(W-TIOC-TWD算法),将属性重要度考虑到距离度量中,弥补了现有算法在聚类过程中将所有属性的重要程度视为相等的不足。该算法还引入离群点概念,降低了算法的时间复杂度。基于人工数据集和UCI数据集的实验结果表明,W-TIOC-TWD算法的聚类准确率优于比较算法。  相似文献   

3.
针对近年来基于网格和密度的数据聚类算法均需要先验知识确定聚类相关参数的问题,提出了基于动态网格和密度邻接的数据聚类算法。该算法首先分析数据集的特征,确定网格单元的初始值,通过定义全局距离度量函数,对网格单元进行2-1动态递减迭代,最后得到全局最优聚类。实验结果证明:使用该算法对数据进行聚类,能够获得直觉上的最优聚类结果。将该算法应用到对GPS信息聚类中,也得到较为理想的效果。  相似文献   

4.
为了使基于网格的聚类技术适用于多密度数据集,提出一种基于局部密度的聚类算法。算法提出将数据单元格密度分类的方法,使得具有不同密度的单元格使用不同密度阈值的进行聚类。同时给出了边界单元的处理方法以提高聚类结果的精度。实验结果表明,GLD算法比其他类似算法有较高的聚类精度和效率。  相似文献   

5.
通过分析目前的聚类算法,提出了多隶属聚类的概念;提出了一种基于频繁项目集的多隶属聚类算法,该算法能产生事务型数据的多隶属聚类。  相似文献   

6.
关联规则是数据挖掘中一个非常重要的任务,有许多针对于关联规则的挖掘算法,然而需要提高算法的有效性来处理现实世界中的数据集。基于聚类的关联规则挖掘算法法通过扫描数据库创建聚类表,将收集的事务记录放入聚类表中,通过局部聚类表的约束来产生频繁项集,不仅可以剪枝候选项集,降低数据扫描的时间,而且确保挖掘结果集的正确性。实验结果表明,基于聚类的关联规则挖掘算法比Apfiori算法有更高的执行效率。  相似文献   

7.
传统的分类算法大多假定用来学习的数据集是平衡的,但实际应用中真正面临的数据集往往是非平衡数据。针对非平衡数据,利用传统的分类方法往往不能获得良好的性能。文章提出了一种新的基于聚类的非平衡分类算法,通过聚类生成多个聚类体,在每个聚类体中选取一定数量的数据作为训练样本,有效地处理了样例数据的不平衡问题,在相关数据集上的实验验证了本方法的有效性。  相似文献   

8.
针对ISODATA对初始聚类点选取较为敏感,不能处理噪声点的缺陷,提出一种基于结合密度最大的改进型ISODATA的划分聚类方法D-ISODATA。基于高局部密度点距离和局部密度最大原则,优化聚类初始点并去除噪声点。根据考察对象所处空间区域的密度分布情况划分基本簇,结合ISODATA聚类算法良好的自适应性,有效地对数据集进行分类。实验表明,这种基于密度聚类的改进型ISODATA算法能有效去除噪声点,改善初始中心点选择对最后聚类算法的影响,并且具有良好的自适应性,对于数据集处理的准确性优于传统K-means算法和ISODATA算法。  相似文献   

9.
传统K中心点算法虽然改进了K均值算法对噪声和孤立点数据敏感的不足,但是仍存在着初始聚类中心和聚类个数k难以确定的问题,因此,针对算法存在的问题,提出一种基于密度的改进K中心点算法。该算法会根据数据集数据的分布情况自主确定聚类个数k和k个聚类中心点。最后,通过在入侵检测领域KDD Cup99数据集上实验测试表明,改进K中心点算法不仅能够自动形成k个聚类,而且具有较高的入侵检测率和较低的漏报率,聚类和入侵检测的效果均优于传统的K中心点算法。  相似文献   

10.
在对免疫聚类类型和流程分析的基础上,结合混沌变量的遍历性和聚类融合方法,提出了基于改进aiNet(artificial immune net)聚类算法CO-aiNet(Chaos optimization of artificial immune net)的异常检测算法ICDA(Immune clustering based Anomaly detection)。CO-aiNet算法在引入权重矢量、相关度等基础上,采用模拟退火算法和概率准则优化监测数据,优化了聚类效果;引入异常因子概念,通过对多次聚类融合后的数据按照异常标记次数排序,得到异常数据集。实验表明,CO-aiNet算法聚类效果优于同类算法,基于聚类融合的异常检测准确性和稳定性显著提升。  相似文献   

11.
Fuzzy C-Means(FCM)模糊c均值聚类算法是一个应用广泛、有效的无监督聚类算法。但传统FCM算法存在对所有样本等划分的缺点,导致聚类精度不高、鲁棒性不强。针对上述问题,从整体上引入点密度关系,从局部上引入点邻域信息,用以标记每个样本点,提出基于点密度和邻域信息的模糊c均值算法(DLFCM)。该算法能标记每个不同的样本,克服了FCM算法等划分的缺点,提高了算法的聚类精度和鲁棒性。人造数据集和UCI真实数据集实验验证了该算法的有效性。  相似文献   

12.
K-means算法在聚类过程中随机选取k个初始聚类中心,容易造成聚类结果不稳定。针对该问题,提出PCA-TDKM算法:使用主成分分析法对数据对象集合的属性进行降维,提取出主属性,去掉无关属性,从而加速聚类过程;基于最小生成树算法及树的剪枝方法将数据对象划分为k个初始聚类簇,然后进行剪枝生成k棵子树,计算每棵子树中所有数据对象的均值,作为初始聚类中心;利用基于密度与最大最小距离的算法思想进行聚类。将PCA-TDKM算法与K-means、KNE-KM、QMC KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定、聚类准确率高。  相似文献   

13.
K 均值算法(K-Means)是聚类算法中最受欢迎且最健壮的一种算法,然而在实际应用中,存在真实数据集划分的类数无法提前确定及初始聚类中心点随机选择易使聚类结果陷入局部最优解的问题。因此提出一种基于最大距离中位数及误差平方和(SSE)的自适应改进算法。该算法根据计算获取初始聚类中心点,并通过 SSE 变化趋势决定终止聚类或继续簇的分裂,从而自动确定划分的类簇个数。采用 UCI 的 4 种数据集进行实验。结果表明,改进后的算法相比传统聚类算法在不增加迭代次数的情况下,聚类准确率分别提高了17.133%、22.416%、1.545%、0.238%,且聚类结果更加稳定。  相似文献   

14.
探讨了基于大数据的定性数据流聚类优化模型,设计了一个函数作为评价聚类模型有效性的目标函数,同时考虑了聚类模型的确定性和与上一个聚类模型的连续性.根据概念漂移的检测指标,提出了一种综合检测指标和优化模型的定性数据流聚类结构演化趋势的检测方法.通过对几个真实数据集的实验研究,验证了该算法在定性数据流聚类中的有效性,并与现有的数据流聚类算法进行了比较.  相似文献   

15.
谱聚类在近年来得到了广泛的应用,而将谱聚类和半监督集群结合的方法通过使用约束改善结果来提高谱聚类的有效性.文章通过选择主动学习方法,提出了一种基于主动学习的半监督谱聚类算法.首先,利用邻域中包含的信息来确定要查询的数据,由于邻域信息只反映局部信息,因此,又引入与目标不太相似的数据点,这些数据点代表全局信息,得到Must-link(正关联)成对约束集和Cannot-link(负关联)成对约束集.然后,对得到的成对约束再通过k-means聚类得到聚类结果.最后,通过在合成数据集以及UCI数据集的对比实验表明文章算法的有效性,通过较小的主动选择成对约束来获得更好的性能.  相似文献   

16.
针对现有序列聚类算法在对大规模数据进行聚类时,内存空间和计算时间开销较大的问题,提出了基于MapReduce的人工蜂群聚类算法。该算法通过引入MapReduce并行编程范式,快速计算聚类中心适应度,可实现对大规模数据的高效聚类。基于仿真数据对算法的聚类效果和聚类效率进行了验证。实验结果表明,与现有PK-Means算法和并行K-PSO算法相比,该算法具有更好的聚类效果和更高的聚类效率。  相似文献   

17.
K-means算法作为较为普遍的聚类算法,聚类效果受孤立点、噪声点和初始聚类中心影响较大。结合Isolation Forest算法计算数据中每个样本的异常度系数,根据离群值过滤比例计算得到异常度系数阈值,对高度异常值加以隔离,并对隔离后的数据集使用平均插值法求得初始聚类中心。运用改进K-means算法对真实数据集进行聚类分析,与此同时,通过比较多个离群值过滤比例下的聚类结果,找到离群值过滤比例的最优取值。仿真结果表明,相比于原始算法,新算法显著提升了聚类准确性,聚类效果更佳。  相似文献   

18.
《柳州师专学报》2015,(6):108-110
K-means算法是一种基于划分的方法,该算法对初始聚类中心的选取依赖性极大,初始中心值的不同导致聚类效果不稳定.为此,本文利用几何概率的思想,认为每个数据点都是等概率的存在于数据集,通过计算每个数据点的点概率值,结合距离因素,选择K个点作为初始聚类中心.实验证明,改进后的K-means算法聚类效果更好.  相似文献   

19.
为改善网络舆情态势感知与预警中舆情信息分析不准确的问题,提出基于 Spark 技术的均值漂移(MS)算法,利用该算法原理分析 Spark 框架特性,给出该算法在 Spark 框架中的实现过程,包括舆情信息预处理、特征提取、特征向量模型构建和算法聚类设计。在相同数据集下将 MS 算法和 K-means 算法聚类效果进行对比,实验结果显示,K-means 算法聚类结果受 k 值选取的影响,存在聚类结果不准确的问题;基于 Spark 的 MeanShift 算法在没有任何先验条件下舆情聚类效果优于 K-means 聚类算法,且符合预期期望。  相似文献   

20.
选取初始聚类中心是多数聚类算法的首要步骤,往往影响着聚类的效果。为了避免算法迭代过程中易陷入局部最优的问题,本文提出了一种基于模糊交叉网格的初始聚类中心选取方法。算法通过对数据空间网格化后,以网格交点为中心的邻近网格组成网格空间,根据数据点的隶属度统计每个网格空间的密度,再通过局部最大网格空间选取K个初始聚类中心。在真实数据集上进行实验,结果表明该方法在保证了聚类效果的同时,提高了收敛速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号