共查询到20条相似文献,搜索用时 62 毫秒
1.
针对传统的K-means算法运行的结果依赖于初始的聚类数目和聚类中心,本文提出了一种基于优化初始聚类中心的K-means算法.该算法通过量化样本间距离和聚类的紧密性来确定聚类数目K值;根据数据集的分布特征来选取相距较远的数据作为初始聚类中心,避免了传统K-means算法的聚类数目和聚类中心的随机选取.UCI机器学习数据... 相似文献
2.
一种改进的K-means算法 总被引:1,自引:0,他引:1
K-means算法是聚类算法中最经典的划分算法之一,它对初值的依赖性很强,聚类结果随初始聚类中心选择的不同而波动很大。提出了一种改进的K-means算法,运用Kruskal算法生成聚类对象的最小生成树(MST),按权值从大到小删去K-1条边,得到的K个连通子图中对象的均值作为初始聚类中心进行聚类。由仿真实验表明,K-means算法较传统算法有更好的聚类效果和准确性。 相似文献
3.
针对社会化标签语义模糊,传统K-medoids聚类算法对初始聚类中心敏感、收敛速度缓慢、只能将归类对象划入到单一类别的缺点,提出一种基于改进K-medoids的社会化标注资源两阶段聚类算法。算法应用一种简洁快速的初始聚类中心选取新规则以及改进的聚类准则函数,首先进行标签聚类,然后将同一标签簇中标签标注的网络资源初步划分到同一资源簇中,最后在这些资源簇中再次进行资源聚类。实验结果表明,提出的算法能自主、合理地确定初始聚类中心,聚类过程收敛速度快,聚类结果有更好的准确性。 相似文献
4.
针对K-Means算法中对初始聚类中心进行随机选择并未达到理想优化的情况,提出一种改进的初始聚类中心选择算法。改进算法首先将原始数据进行预处理并计算各维有效数据的最大值和最小值,然后利用各维有效数据的最大值和最小值进行数据分段和初始聚类中心选择,最后采用VS集成开发环境进行建模。采用遵义医学院2010级的学生计算机考试成绩数据对模型进行仿真,仿真结果显示聚类挖掘性能相对K-Means算法较高,证明改进的初始聚类中心选择算法可以提供精确的聚类挖掘结果。 相似文献
5.
《科技通报》2015,(10)
在云计算环境下,针对K-means对初始聚类中心敏感和易陷入局部最优的缺点,进行K-means聚类中心优化求解,提高对海量数据的聚类处理能力。传统方法采用动态干扰信任感推荐方法进行数据聚类中心求解,聚类中心对初始值敏感性较强,数据聚类效果不好。提出一种基于粒子群密度最大距离凹函数构建和边界隶属度特征分析的云计算中K-means聚类中心优化求解方法。通过云计算处理,对数据聚类余下样本点按照与聚类中心的相似程度来划分成k类,对原始变量数据的差异化特征进行降维处理,通过搜索空间中的粒子,每一个粒子自身都有速度、位置和适应度,通过迭代找到最优解,进行数据规范化预处理,数据预处理包括选择数量,类型和特征的标度,进行边界隶属度特征分析,实现云计算数据的聚类改进。仿真结果表面,该算法对云计算数据的聚类性能优越,聚类中心求解准确,克服了传统的K-means对初始聚类中心敏感和易陷入局部最优的缺点,应用价值较大。 相似文献
6.
7.
8.
针对k-均值聚类方法可能受初始选定的聚类中心的影响而过早收敛于次优解的不足,给出了一种基于自适应遗传算法的聚类分析方法(AGAC)。对该自适应遗传算法的构成要素及用其解决聚类问题的一般步骤给出了阐述。用VS 2008编写了该算法的程序用来对数字进行聚类取得了较好的聚类结果。 相似文献
9.
10.
传统方法直接设定聚类数量,得到的结果并非最优聚类数,且针对大规模电力数据,单一聚类方法无法同时达到聚类精度与效率两方面要求。为此,提出一种新的非线性季节型电力负荷曲线集成聚类算法。用DBI指标对聚类效果进行评价,将与DBI最小值相应的聚类数据作为最优聚类数量。通过模糊C均值聚类方法,依据原始非线性季节型电力数据对象间的相似程度,获取初始聚类中心。利用聚类性能更优、稳定性更高的层次聚类方法完成对聚类中心的组合,获取有效的集成聚类结果。实验结果表明,所提方法能够同时保证聚类精度与聚类效率,整体性能较强。 相似文献
11.
12.
《科技通报》2015,(9)
在对多层物联网下非法信息进行快速定位的过程中,容易出现实际问题中用户的行为模式存在多样性与不可预知性的情况,导致传统方法由于采用提前设定模式进行学习,无法有效实现非法信息的快速定位,提出一种基于K-均值聚类的多层物联网下非法信息快速定位方法,分析了多层物联网的结构,随机选择若干数据点作为初始簇中心,将集合中所有数据点分配至和其最近的簇中心所在的类簇中,形成初始分布。分配完成后对各簇中心进行更新,不断进行数据划分,直至簇中心不再发生改变,聚类准则函数收敛。通过评价指标获取合理的聚类结果,从而完成多层物联网下非法信息的快速定位。仿真实验表明,所提方法具有很高的准确性及高效性。 相似文献
13.
基于优化初始类中心点的K-means改进算法 总被引:2,自引:0,他引:2
K-means算法是一种重要的聚类算法,在网络信息处理领域有着广泛的应用。由于K-means算法终止于一个局部最优状态,所以初始类中心点的选择会在很大程度上影响其聚类效果。本文提出了一种K-means算法的改进算法,首先探测数据集中的相对密集区域,再利用这些密集区域生成初始类中心点。该方法能够很好地排除类边缘点和噪声点的影响,并且能够适应数据集中各个实际类别密度分布不平衡的情况,最终获得较好的聚类效果。 相似文献
14.
针对传统的K-Means算法的不足,以及其在文本聚类中存在的局限性,提出了一种基于网页向量语义相似度的改进K-Means算法。新算法通过向量语义相似度的计算自动确定初始聚类中心,在聚类过程中,达到语义相似度阈值的网页才使用K-Means算法进行聚类。通过实验证明,新算法很好地克服了传统K-Means算法随机选取聚类中心以及无法处理语义信息的问题,提高了聚类的质量。 相似文献
15.
16.
无导师聚类过程中将数据集合分割成几个类是一个很难确定的问题,目前还没有较好的解决方法。文章使用粒子群优化算法应用于无导师聚类算法——K-均值的参数学习,实现了使用粒子群优化算法进行聚类中心参数的确定,旨在提供一种选择中心参数个数的方法,同时给出了适应于聚类参数学习的粒子群fitness函数算法设计。通过对UCI机器学习数据库中的7个数据库进行实验,证实此方法是比较有效的。 相似文献
17.
本文针对传统的聚类算法在入侵检测系统中的不足,提出一种基于密度的初始聚类中心的选择方法,可克服普通K-Means中的需人工确定K值的问题,用此算法改进的入侵检测模型能够获得很好的聚类效果。对比实验结果,发现使用改进后的算法与传统的K-Means相比可以获得更高的检测率和较低的误报率。 相似文献
18.
爬山法一般得不到全局最优分类,k-均值法等常规动态聚类方法对初始聚类中心的选择非常敏感且聚类结果依赖样本的输入次序,结合遗传算法的全局搜索能力和爬山算法的局部搜索能力改进常规动态聚类方法,可以有效地解决这些问题,通常可保证能在有限的迭代次数内搜索到全局最优解。 相似文献
19.
20.
聚类方法可以用于高校图书馆数据挖掘.文章针对具体应用讨论了两种聚类方法,一种是需要提供类别数目参数的K-均值聚类方法,另一种是不需要提供类别数目参数的均值漂移聚类方法.根据图书馆数据挖掘的具体要求,采用不同的聚类方法能够更好地作出分析. 相似文献