首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
针对Web挖掘,首先论述了Web挖掘的基本理论,接着分析数据挖掘中的聚类算法,讨论了聚类分析的数据结构和数据类型,以及聚类算法的分类,详细介绍了数据挖掘中用到的主要聚类算法,最后对评价聚类结果的方法进行了分析。  相似文献   

2.
根据旅行商问题中城市分布的特点,提出了分区域聚类的蚁群算法.首先,对城市分布进行球形聚类,再分别对剩下的城市进行线形聚类和孤立点聚类.采用这样的分区域聚类的蚁群算法收敛速度快,寻求的解更优.实验表明,该算法比基本蚁群算法在求得解更优的同时,速度快3~13倍.  相似文献   

3.
一种基于向量空间模型的文本聚类方法   总被引:3,自引:0,他引:3  
研究了一种基于向量空间模型的文档聚类方法.提出了一个新的聚类模型,即在传统聚类模型的基础上增加一个文档特征向量调整模块;给出了一个特征评价函数用以进行特征提取;对一种基于相似度的平面划分聚类算法做了一些改进.实验结果表明本文提出的聚类模型是可行的.  相似文献   

4.
通过分析目前的聚类算法,提出了多隶属聚类的概念;提出了一种基于频繁项目集的多隶属聚类算法,该算法能产生事务型数据的多隶属聚类。  相似文献   

5.
由于性能优越,谱聚类成为近年来聚类算法研究的热点。谱聚类算法可以在任意形状的样本空间上聚类,并能获得全局最优解。介绍了谱图的基本理论及其划分准则,探讨了谱聚类算法,并针对当前谱聚类应用展望了未来研究方向。  相似文献   

6.
根据谱聚类矩阵特征向量组的分段常值性,提出一种基于特征向量组自动选取的谱聚类算法。其基本思想是:首先根据数据集计算出非对称规范Laplace矩阵,然后选择其前个特征向量,最后利用本征间隙法从上述特征向量中自动选取包含聚类信息的特征向量。实验表明,该算法在一定程度上解决了特征向量自动选取问题,可以获得质量较高的聚类结果。  相似文献   

7.
一种K-means算法的k值优化方案   总被引:1,自引:0,他引:1  
聚类算法是数据挖掘中核心技术之一,而k-means算法在经典聚类算法中占有重要地位。针对k-means聚类算法的最佳聚类个数k不易获得,因而使得该聚类算法的应用受到限制,为此提出一种k值优化方法:通过给出大于最佳聚类数的可能聚类数,而得到优化的聚类个数。通过实例给予验证,其结果说明该方法合理有效。  相似文献   

8.
为了对社会化标注系统中的标签进行有效聚类,并针对传统K-medoids算法存在的聚类结果易受初始聚类中心影响的问题,本文提出了一种改进的K-medoids标签聚类算法.该算法应用社会化标签的余弦相似值进行初始聚类中心的选择,然后进行标签聚类.对Delicious标签数据集的实验结果表明算法具有较强的的可行性和有效性.  相似文献   

9.
近年来,数据挖掘技术的研究备受国内外关注,其主要原因是信息技术发展产生了大量分散的数据,迫切需要将这些数据转换成有用的信息和知识.此前的研究,主要集中于分类算法及应用方面的研究,但某些特殊领域,如生物信息学研究等,需要通过聚类方法解决一些实际问题.本文从横向深入分析了数据挖掘技术中聚类算法的发展,对层次法、划分法、模糊法,以及量子聚类、核聚类,基于密度和网格等10种聚类算法的原理、过程和特点等都进行了比较详细的分析论述.  相似文献   

10.
传统的K—means算法对初始聚类中心敏感,聚类的结果随不同的初始输入而波动.为了消除这种敏感性,提出了一种改进的K-means算法,改善聚类算法中选取初值的依赖性,提高聚类结果的稳定性.仿真实验结果表明:改进后的K-means算法优于原始算法.  相似文献   

11.
为了提高聚类结果和允许在结果中进行选择,将本体语义与文档聚类相结合,在文档处理过程中提出了基于WordNet的新的文档聚类算法.首先通过tf-idf对文档进行了表示,为了将WordNet的概念出现在文档集合中,通过新的实体对每一个单词向量进行扩展.其次,运用特征提取算法对文档进行特征提取.最后提出了本体集合聚类算法用以提高文本的聚类效果.实验构建在Reuters20新闻组的数据基础上,应用互信息作为试验结果的比较.结果表明:与已经存在的一些算法如MNB,CLU-TO,co-clustering等相比,基于本体的聚类算法在文本聚类上有很明显的提高.  相似文献   

12.
提出了一种基于改进蚁群算法的动态K-均值聚类算法思想,该算法首先利用蚁群算法的较强处理局部极值的能力,动态地确定了聚类数目和中心,然后利用蚁群聚类得到的结果,再进行K-均值聚类弥补蚁群算法的不足。两者有机结合起来可以寻求到具有全局分布特性的最优聚类,实现了基于改进的蚁群聚类算法分析。  相似文献   

13.
提出了一种基于改进蚁群算法的动态K-均值聚类算法思想。该算法首先利用蚁群算法较强处理局部极值的能力,动态地确定了聚类数目和中心,然后利用蚁群聚类得到的结果,进行K-均值聚类弥补蚁群算法的不足。两者的有机结合可以寻求到具有全局分布特性的最优聚类,实现基于改进的蚁群聚类算法分析。  相似文献   

14.
在对免疫聚类类型和流程分析的基础上,结合混沌变量的遍历性和聚类融合方法,提出了基于改进aiNet(artificial immune net)聚类算法CO-aiNet(Chaos optimization of artificial immune net)的异常检测算法ICDA(Immune clustering based Anomaly detection)。CO-aiNet算法在引入权重矢量、相关度等基础上,采用模拟退火算法和概率准则优化监测数据,优化了聚类效果;引入异常因子概念,通过对多次聚类融合后的数据按照异常标记次数排序,得到异常数据集。实验表明,CO-aiNet算法聚类效果优于同类算法,基于聚类融合的异常检测准确性和稳定性显著提升。  相似文献   

15.
仿射传播聚类算法是一种比较新的基于质心的聚类算法,在图像分割领域得到了广泛应用。仿射传播聚类算法最终聚类数目会受到偏向参数P(Preference)的影响,得到的聚类数目往往偏多,影响分割质量。鉴于此,提出一种改进的仿射传播聚类的图像分割算法,该算法将仿射传播聚类算法与CURE层次聚类算法相结合,CURE算法能够对仿射传播聚类算法的分割结果进行优化。实验验证表明,改进后的算法图像分割效果更好。  相似文献   

16.
K 均值算法(K-Means)是聚类算法中最受欢迎且最健壮的一种算法,然而在实际应用中,存在真实数据集划分的类数无法提前确定及初始聚类中心点随机选择易使聚类结果陷入局部最优解的问题。因此提出一种基于最大距离中位数及误差平方和(SSE)的自适应改进算法。该算法根据计算获取初始聚类中心点,并通过 SSE 变化趋势决定终止聚类或继续簇的分裂,从而自动确定划分的类簇个数。采用 UCI 的 4 种数据集进行实验。结果表明,改进后的算法相比传统聚类算法在不增加迭代次数的情况下,聚类准确率分别提高了17.133%、22.416%、1.545%、0.238%,且聚类结果更加稳定。  相似文献   

17.
入侵检测技术是网络安全中重要的组成部分,它弥补了防火墙和数据安全保护的缺陷,能够通过对一些入侵特征进行分析并预警,以达到防患于未然.该文进行了基于聚类技术的入侵检测算法的研究,提出了一种基于信息熵的聚类算法,并应用在入侵检测系统中进行特征提取,通过聚类形式化描述,提出数据记录信息熵和相对熵聚类的聚类算法.  相似文献   

18.
聚类分析是当今飞速发展的数据挖掘和数据信息分析的一个重要技术,因此聚类分析已经成为数据挖掘领域一个非常活跃的研究课题.针对空间数据库对聚类算法的特殊要求,分析了空间聚类算法的构造思想及其优缺点,探讨了空间聚类算法目前的工作、算法的一些开放性问题以及今后的研究方向.  相似文献   

19.
K-means算法在聚类过程中随机选取k个初始聚类中心,容易造成聚类结果不稳定。针对该问题,提出PCA-TDKM算法:使用主成分分析法对数据对象集合的属性进行降维,提取出主属性,去掉无关属性,从而加速聚类过程;基于最小生成树算法及树的剪枝方法将数据对象划分为k个初始聚类簇,然后进行剪枝生成k棵子树,计算每棵子树中所有数据对象的均值,作为初始聚类中心;利用基于密度与最大最小距离的算法思想进行聚类。将PCA-TDKM算法与K-means、KNE-KM、QMC KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定、聚类准确率高。  相似文献   

20.
提出一种新颖的基于谱聚类的音频聚类算法,首先对音频数据进行预处理,得到三维音频向量,然后根据向量之间的距离计算音频相似度,最后设计谱聚类算法获得音频数据聚类结果。在网易云音乐数据上的对比实验表明,与K means算法和快速查找密度峰值聚类算法相比,该算法获得的聚类结果更加优越。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号