首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对近年来基于网格和密度的数据聚类算法均需要先验知识确定聚类相关参数的问题,提出了基于动态网格和密度邻接的数据聚类算法。该算法首先分析数据集的特征,确定网格单元的初始值,通过定义全局距离度量函数,对网格单元进行2-1动态递减迭代,最后得到全局最优聚类。实验结果证明:使用该算法对数据进行聚类,能够获得直觉上的最优聚类结果。将该算法应用到对GPS信息聚类中,也得到较为理想的效果。  相似文献   

2.
相比较于其它聚类算法,密度峰值聚类算法可将任意形状的数据与较少的参数和高效的聚类速度结合起来。针对当某个类中出现多个密度峰值时,聚类结果缺乏准确性的问题,提出一种改进的密度峰值聚类结果有效性造成的影响,算法通过比较类簇之间的密度属性,实现动态的子簇合并,减少主观因素对算法结果的影响。通过实验与已有密度聚类算法对比,改进算法不仅很好地避免了原算法人为确定参数给实验结果造成的影响,而且具有更好的聚类性能。  相似文献   

3.
为了使基于网格的聚类技术适用于多密度数据集,提出一种基于局部密度的聚类算法。算法提出将数据单元格密度分类的方法,使得具有不同密度的单元格使用不同密度阈值的进行聚类。同时给出了边界单元的处理方法以提高聚类结果的精度。实验结果表明,GLD算法比其他类似算法有较高的聚类精度和效率。  相似文献   

4.
基于均匀网格的自适应密度快速聚类算法   总被引:1,自引:1,他引:0  
提出了一种基于均匀网格的自适应密度快速聚类新算法.首先引入均匀网格和边界网格概念,然后给出了网格均匀度的计算方法和自适应网格划分技术.每次聚类都从均匀度最高的网格开始逐步向周围扩展均匀网格,直到遇到边界网格为止.算法除具有一般网格聚类算法的优点外,还能自适应地发现不同密度的类及其边界,能够有效地识别孤立点并具有较好的扩展性.最后,通过实验验证了该算法的有效性.  相似文献   

5.
提出了一种基于网格密度的聚类算法(DGCA)。该算法主要利用网格技术去除数据集中的部分孤立点或噪声数据,对类的边缘节点使用一种边缘节点判断函数进行提取,最后利用相近值的方法进行聚类。实验表明,DGCA算法能够很好地识别出孤立点或噪声,聚类结果可以达到一个较高的精度。  相似文献   

6.
聚类和粒度具有天然的相通性,本文探讨了基于粒度聚类算法的一般框架,并基于该框架,研究了一种基于网格密度的文本聚类算法,最后以例证说明这一方法的可行性。  相似文献   

7.
提出了一种自动化的网格聚类算法GAC。该算法主要采用密度阈值技术提取不同的类,使用边界点处理技术提高聚类精度。GAC算法只要求对数据集进行一遍扫描。实验表明,该算法可扩展性好,能处理任意形状和大小的聚类,能够很好地识别出孤立点或噪声,在处理多密度聚类方面有很好的精度。  相似文献   

8.
选取初始聚类中心是多数聚类算法的首要步骤,往往影响着聚类的效果。为了避免算法迭代过程中易陷入局部最优的问题,本文提出了一种基于模糊交叉网格的初始聚类中心选取方法。算法通过对数据空间网格化后,以网格交点为中心的邻近网格组成网格空间,根据数据点的隶属度统计每个网格空间的密度,再通过局部最大网格空间选取K个初始聚类中心。在真实数据集上进行实验,结果表明该方法在保证了聚类效果的同时,提高了收敛速度。  相似文献   

9.
聚类算法是数据挖掘的核心技术,基于密度的聚类是一类已经被证明非常有效的聚类方法.与DBSCAN算法作比较,文章提出了一种基于密度的聚类算法(Clustering Using Centers and Density,CUCD).该算法是基于中心点以及密度实现的,其核心对象是根据数据分布计算出来的虚拟的点,并且核心对象的代表性随程序的执行次数而提高;经实验验证,该算法具有较好的时间效率和聚类质量.  相似文献   

10.
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

11.
针对ISODATA对初始聚类点选取较为敏感,不能处理噪声点的缺陷,提出一种基于结合密度最大的改进型ISODATA的划分聚类方法D-ISODATA。基于高局部密度点距离和局部密度最大原则,优化聚类初始点并去除噪声点。根据考察对象所处空间区域的密度分布情况划分基本簇,结合ISODATA聚类算法良好的自适应性,有效地对数据集进行分类。实验表明,这种基于密度聚类的改进型ISODATA算法能有效去除噪声点,改善初始中心点选择对最后聚类算法的影响,并且具有良好的自适应性,对于数据集处理的准确性优于传统K-means算法和ISODATA算法。  相似文献   

12.
针对数据挖掘算法中的聚类算法在聚类不规格形状数据点分布的处理难题,对基于密度梯度的聚类算法进行了研究。通过分析数据样本及其周边的点密度变化情况,选择沿密度变化大的方向寻找不动点,从而获取原始聚类中心,再利用类间边界点的分布情况对小类进行合并。阐述了基于密度梯度的聚类算法以及应用此算法进行电信行业客户细分的方法、步骤和案例。  相似文献   

13.
针对不均匀数据集的抽样问题,已有随机抽样算法、基于固定网格划分的单维度算法、基于可变网格划分的单维度算法,但仍无法更好地反映数据分布特征问题。在数据挖掘的实际应用中,数据规模越来越大,数据类型也越来越复杂,存在系统整体开销大、时间运行成本高等问题。提出并实现了基于不均匀数据的密度偏差抽样改进算法(IDDS),通过引入网格单元密度和三角函数,从而达到较好的密度偏差抽样效果。实验结果发现,IDDS算法抽样效果更好,提取的样本质量更高,有效保证了不均匀数据的分布特征。与原始的密度偏差抽样算法(DDS)相比,应用IDDS算法的效率更高。  相似文献   

14.
随着网络的普及和信息量的急剧增加,从海量数据中提取有用的数据信息已迫在眉睫。本文提出了一种基于密度偏差抽样的聚类算法,实验表明,随着信息量、数据维数的增加,该算法聚类的正确率以及对数据的处理速度都要较传统的聚类算法有所提高。  相似文献   

15.
针对数据流的特点,提出了一种新的网格密度结合的GCTS算法.它采用了双层架构,在线层实现了网格密度参数的自设定,离线层以网格单元的重心为中心点,建立一个最大的子网格,使候选网格中的局部密集区域转化成了密集网格.最后使用最小生成树的算法生成进行聚类结果.提高了聚类效果.  相似文献   

16.
近年来,数据挖掘技术的研究备受国内外关注,其主要原因是信息技术发展产生了大量分散的数据,迫切需要将这些数据转换成有用的信息和知识.此前的研究,主要集中于分类算法及应用方面的研究,但某些特殊领域,如生物信息学研究等,需要通过聚类方法解决一些实际问题.本文从横向深入分析了数据挖掘技术中聚类算法的发展,对层次法、划分法、模糊法,以及量子聚类、核聚类,基于密度和网格等10种聚类算法的原理、过程和特点等都进行了比较详细的分析论述.  相似文献   

17.
K-中心点聚类算法对噪声和孤立点的敏感性小,比较适用于增长速度快、更新频繁的电子地图数据,但K-中心点聚类算法初始中心点的选择会直接影响算法的稳定性和准确性,容易陷入局部最优解,从而影响聚类效果。提出一种基于改进K-中心点的电子地图数据质量检查算法,通过对样本数据集进行网格划分,结合样本密度信息选取初始中心点,解决了算法依赖样本数据实际分布的问题。评估实验结果表明,改进算法较K-中心点算法正确率提升了9.56%,效率提升了56.33%。  相似文献   

18.
K-Means算法是聚类方法中常用的一种划分方法。随着数据量的增加,K-Means算法的局限性日益突出。基于网格划分的思想,提出了一种基于网格的K-Means聚类算法,该算法使用了网格技术在一定程度上去除了孤立点和噪声数据,减少了原始K-Means算法将大的聚类分开的可能。实验表明,该算法能处理任意形状和大小的聚类,对孤立点和噪声数据也能很好地识别,并且在去除孤立点和噪声数据方面可以达到较好的精度。  相似文献   

19.
针对传统的文本聚类容易受到噪声影响的问题,提出一个基于词性标注的文本聚类算法。该算法利用词性标注从文本中识别并抽取最能体现文本特征的关键词,再基于所抽取的关键词进行聚类操作。实验发现,相对传统的聚类算法,基于词性标注的文本聚类算法能够有效地提高聚类结果的质量。  相似文献   

20.
Fuzzy C-Means(FCM)模糊c均值聚类算法是一个应用广泛、有效的无监督聚类算法。但传统FCM算法存在对所有样本等划分的缺点,导致聚类精度不高、鲁棒性不强。针对上述问题,从整体上引入点密度关系,从局部上引入点邻域信息,用以标记每个样本点,提出基于点密度和邻域信息的模糊c均值算法(DLFCM)。该算法能标记每个不同的样本,克服了FCM算法等划分的缺点,提高了算法的聚类精度和鲁棒性。人造数据集和UCI真实数据集实验验证了该算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号