共查询到20条相似文献,搜索用时 31 毫秒
1.
提出一种新的选择性聚类融合算法,该算法主要基于分形维数来处理一些高维数据,选择策略则是主要基于互信息,考虑到已选聚类成员的重要程度与聚类成员的质量和多样性,此算法比较适用的数据聚集类为任意形状的,聚类融合可通过加权定义实现。仿真实验中在UCI数据集环境运用本文提出的选择性聚类融合算法,实验结果表明该算法具有良好的有效性。 相似文献
2.
针对K-Means算法中对初始聚类中心进行随机选择并未达到理想优化的情况,提出一种改进的初始聚类中心选择算法。改进算法首先将原始数据进行预处理并计算各维有效数据的最大值和最小值,然后利用各维有效数据的最大值和最小值进行数据分段和初始聚类中心选择,最后采用VS集成开发环境进行建模。采用遵义医学院2010级的学生计算机考试成绩数据对模型进行仿真,仿真结果显示聚类挖掘性能相对K-Means算法较高,证明改进的初始聚类中心选择算法可以提供精确的聚类挖掘结果。 相似文献
3.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对从高维采样数据中恢复得到低维数据集,通过本文提出的离群数据假设,并结合本文给出的离群聚类方法对所得数据对象投影分量是否是离群数据进行判别。仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。与此同时,该算法具有参数估计简单、参数影响不大等优点,为离群点检测问题的机器学习提供了一条新的途径。 相似文献
4.
5.
传统特征选择算法没有考虑特征之间的关联性,并且基于类别平衡假设,在不平衡问题上偏向多数类而忽略少数类。针对以上不足,本文综合考虑特征相关性与不平衡性,提出一种基于类区分度的高维不平衡特征选择算法CDHI,该算法通过k-means进行特征聚类,并计算簇中每个特征的类区分度,利用类区分度对聚类簇中特征进行重要性排序,然后选择各簇中类区分度较高的特征组成特征子集,达到去除高维特征冗余与处理不平衡数据的双重目的。实验结果表明,与传统特征选择方法相比,CDHI算法有效降低了特征空间的维度,提高了少数类的识别率。 相似文献
6.
7.
提出改进的并行化谱聚类算法。该算法对于距离矩阵与相似度矩阵进行了改进,并在其中加入了kd树技术以对大规模数据进行稀疏化处理;然后在进行数据特征计算时,将数据以拉普拉斯矩阵的方式存入Hadoop之中,通过运行Lanczos分布计算的形式得到了其向量特征;最后运用在聚类算法中的较为高效的k-means聚类算法对向量特征的转置矩阵进行处理从而得到了需要的聚类结果。仿真实验结果表明,本文所提出的谱聚类并行算法能够为大规模的数据挖掘工作带来性能的巨大提升。 相似文献
8.
统计深度的主要思想是在高维情况中,根据深度函数对给定的数据集或是分布得到一个中心向外的数据排序,并能由此定义出高维中位数的概念。本文改进了投影深度最深点的近似算法并提出了SPD(Spatial)深度最深点的近似算法,并且通过数据模拟可以看出这些算法的精确度较高,而且计算复杂度也不高。 相似文献
9.
本文采取了3种必要的措施提高了聚类质量:考虑到各维数据特征属性对聚类效果影响不同,采用了基于统计方法的维度加权的方法进行特征选择;对于和声搜索算法的调音概率进行了改进,将改进的和声搜索算法和模糊聚类相结合用于快速寻找最优的聚类中心;循环测试各种中心数情况下的聚类质量以获得最佳的类中心数。接着,该算法被应用于图书馆读者兴趣度建模中,用于识别图书馆日常运行时各读者借阅图书的类型,实验表明该算法较其它算法更优。这样的读者兴趣度聚类分析可以进行图书推荐,从而提高图书馆的运行效率。 相似文献
10.
传统的聚类算法在处理复杂特征数据时效果不理想,为此提出使用高斯径向基核函数将原空间上的数据映射到高维特征空间后,再用蚂蚁算法进行第一次聚类,针对第一次聚类结果得到较多簇等问题,提出再用马赛克算法进行二次聚类,得到较为接近真实情况的簇数目。 相似文献
11.
12.
为开发高效的数据挖掘算法,实现模糊集聚类算法的高效性,将BIRCH聚类算法思想与模糊集算法进行融合。通过对模糊集算法处理的数据进行二次聚类计算,细化群边缘,最后加载判别函数进行数据定位,完成数据挖掘。最后使用KDDCUP2011数据库进行仿真实验,对目标数据进行挖掘,证实了融合BIRCH聚类算法思想的模糊集算法具有可行性,对比改进前的算法在数据挖掘方面效率更高。 相似文献
13.
14.
图像聚类为数字图书馆图像管理提供了新的技术支持,能够在大量图像数据中发掘使用户感兴趣的信息。传统应用于图像聚类的特征提取算法往往忽略图像颜色的空间分布信息,且适应性较差。通过等面积矩形环对图像进行划分并计算各空间区域的相关性,并根据空间区域相关性计算各区域的重要性,将空间信息与颜色信息进行融合。同时对快速搜索密度峰值聚类算法的截断距离进行了合理改进,在保证聚类精度的同时提高收敛速度。最后将该密度聚类算法应用于数字图书馆图像检索之中。通过实验验证,本文提出的方法是可行的、有效的。 相似文献
15.
《科技通报》2015,(8)
传统方法中,对XML数据库的融合中心带宽扩维算法采用谱估计方法,当融合中心出现了大量以海量数据为基础的信息服务数据时,后续访问需在多个服务器中遍历许多节点,影响访问效率。提出一种基于节点分裂日志的XML数据库融合中心带宽扩维感知算法。首先构建XML数据库相对状态系统模型与数据融合算法,设计节点分裂日志的数据融合结构,通过预获取有限的带宽中心信息,推导出实体关联知识库,利用表征关联知识有效指导XML数据库的资源融合和重整,构建实体模型,提高数据融合中心的聚类能力。仿真实验结果表明,该法能有效提高XML数据库融合中心宽带扩维匹配率,执行效率和数据聚类效率提高,展示其优越的应用价值。 相似文献
16.
针对传统的K-means算法运行的结果依赖于初始的聚类数目和聚类中心,本文提出了一种基于优化初始聚类中心的K-means算法。该算法通过量化样本间距离和聚类的紧密性来确定聚类数目K值;根据数据集的分布特征来选取相距较远的数据作为初始聚类中心,避免了传统K-means算法的聚类数目和聚类中心的随机选取。UCI机器学习数据库数据集的实验证明,本文所提出的改进的聚类算法获得了良好的聚类效果,同时获得较高的聚类准确率。 相似文献
17.
《内江科技》2016,(10)
密度峰值聚类(Density peaks clustering简称DPC)算法是2014年在美国Science期刊上发表的一种非常简洁优美的聚类算法,它不需要像经典K-means算法那样迭代,也不需要很多参数。DPC算法的核心思想在于对聚类中心的刻画,它通过计算数据集中每个数据点的局部密度和该点到具有更高局部密度的点的最小距离,当数据点的■的值较大时,该点为聚类中心。然而通过分析,发现这样选取聚类中心得聚类效果不具有稳健性,依赖于和的量纲。本文提出一种改进的密度峰值聚类算法,将和归一化后的和记为每个点的权重,构造函数■作为选取聚类中心的判决函数,结合模拟计算,验证本文的方法更鲁棒,选取聚类中心效果更好,且复杂度降低。 相似文献
18.
一种改进的K-means算法 总被引:1,自引:0,他引:1
K-means算法是聚类算法中最经典的划分算法之一,它对初值的依赖性很强,聚类结果随初始聚类中心选择的不同而波动很大。提出了一种改进的K-means算法,运用Kruskal算法生成聚类对象的最小生成树(MST),按权值从大到小删去K-1条边,得到的K个连通子图中对象的均值作为初始聚类中心进行聚类。由仿真实验表明,K-means算法较传统算法有更好的聚类效果和准确性。 相似文献
19.
CLIQUE是一种基于密度和基于网格的混合聚类方法。在高维空间中,它能够有效地进行聚类,并且能够发现嵌套在高维数据空间子空间中的聚类。但是,CLIQUE算法存在着很多的局限性,主要有以下两点:首先是子空间的剪枝;其次是CLIQUE算法追求方法简单化。针对CLIQUE算法的局限性,采用基于约束条件的聚类技术、自适应网格技术和边界调整技术来对CLIQUE算法进行改进,提出了基于约束条件和自适应网格的CAG-CLIQUE算法。 相似文献
20.
本文提出了一种免疫克隆选择算法与模糊C-均值聚类算法相结合的混合聚类算法。首先用克隆选择算法对模糊聚类中心的个数和聚类中心的选取进行指导,然后进行聚类,是一种有监督学习和无监督学习结合的一种算法,将该算法用于汽轮机的故障诊断中,诊断结果表明,该方法能够正确地诊断出存在的故障,具有实用价值。 相似文献