首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
ROCK是一种采用数据点间的公共链接数来衡量相似度的分层聚类方法,这种方法对于高维、稀疏特征的分类数据具有高效的聚类效果.其邻接度矩阵计算是影响其时间复杂度的关键步骤,将图形处理器(GUP)强大的浮点运算和超强的并行计算能力应用与此步骤,而其余步骤由CPU完成,这种基于GUP的ROCK算法的运算效率在AMD 643500+CPU和NVIDIA GeForce 6800 GT显卡的硬件环境下经过实验测试,证明其运算速度比完全采用CPU计算速度要快.这种改进的分层聚类算法适合在数据流环境下对大量数据进行实时高效聚类操作.  相似文献   

2.
逆向Skyline查询能够应用到诸如决策支持、用户偏好支持以及市场行为分析等方面.由于参考对象q的存在,在执行逆向Skyline查询的过程中数据空间被划分成许多分区.然而,存在的算法都没有考虑这个问题的影响,直接使用原始数据集建立索引结构.本文提出了一种新的逆向Skyline查询方法CRSQ,它考虑了这个问题.CRSQ首先根据查询对象q对数据进行聚类,然后建立R-tree索引,最后利用高效修剪策略修剪索引搜索空间.实验结果表明CRSQ算法是有效的,它相对于没有聚类技术的算法获得了50 %以上的性能提高.  相似文献   

3.
高维数据能充分表达复杂事物的信息,但高维数据自身表达和处理复杂,妨碍了它的实际应用。阐述了用降维算法和构建索引结构来解决高维数据降维问题。以数据对象变异最大方向的投影作为特定数据对象集的主成份,将聚类分析引入高校数据资源的预处理环节,实现了数据对象集合的聚类归约。给出应用实例,为深入探索相关模式提供有效的分析方法。  相似文献   

4.
随着可搜索加密技术的发展,用户输入多个查询关键词即可对云服务器中的数据进行检索.但是随着数据量的增加,云服务器的检索效率不断降低,其安全性也难以得到保障.为此,提出一种云存储环境中多关键词加密排序搜索方法.首先,通过对文档的关键词进行聚类,获得特征较集中的索引向量;其次,对索引和查询向量构建标记,根据查询标记的位置过滤...  相似文献   

5.
以基于数据挖掘方法的入侵检测技术研究为核心,对数据挖掘技术和入侵检测技术进行了研究和分析,探讨了数据挖掘方法中聚类算法在入侵检测中的应用,提出了一种基于最短距离算法的最近邻优先(NearestNeighbor First)算法,并采用KDD Cup 1999数据集中的数据对该算法的执行效率进行检测.  相似文献   

6.
Skyline查询就是要查找数据集中不被其他点支配的所有点。由于Skyline查询在涉及多维空间数据库的应用领域中起着非常重要的作用,因而Skyline的计算受到了很大关注,特别是无需访问所有的数据点就能很快的返回Skyline点的算法。论文研究一种基于最近邻法Skyline查询方法,并对其作了分析。算法采用了R-树及堆结构,通过对目标数据集进行索引,存放最可能为Skyline点的数据于算法优先扫描的位置,这使得算法能高效计算出数据集的Skyline;同时,算法所采用的分枝界定法可以使所访问的空间数据点数目大大减少;再者,算法扫描一个点时,只需和当前已发现的Skyline点进行比较即能判断该点是否为Skyline点,保证了算法的渐进性。  相似文献   

7.
传统的集中式聚类算法不适宜对传感器网络的分布式数据进行聚类,用遗传进化机制对传统k-means的分布式聚类算法进行优化,可得出遗传k-means聚类算法。遗传k-means聚类算法即在传感器网络中sink节点传送随机选取的初始k个簇心到各个传感器节点,在这些节点上分别用遗传k-means聚类算法将本地的数据划分到距离最近的簇,然后将簇信息在无线传感器网络里通过路由逐层上传合并汇聚到sink节点,计算k个簇心的平均值,再往下传送k个簇心,反复迭代更新直至聚类目标函数值达到最小为止。实验表明,遗传k-means聚类算法的聚类效果较好,收敛速度较快。  相似文献   

8.
一种改进的k-means聚类算法   总被引:2,自引:0,他引:2  
针对k-means算法事先必须获知聚类数目以及难以确定初始中心的缺点,提出了一种改进的k-means聚类算法.首先引入轮廓系数的概念,通过计算不同K值下簇集中各对象的轮廓系数确定事先未知分类信息的数据集中所包含的最优聚类数Kopt;然后通过凝聚层次聚类的方法获得数据集的分布,确定初始聚类中心;最后利用传统的k-means方法完成聚类.理论分析表明,所提出的算法具有适度的计算复杂度.IRIS测试数据集的实验结果表明了该算法能够合理区分不同类型的簇集,且可以有效地识别离群点,聚合后的结果簇集具有较低的熵值.  相似文献   

9.
提出了一种基于核的聚类方法,增加对样本特征的优化;通过核函数,把数据样本空间映射到一个高维的特征空间;在特征空间对数据样本进行k-中心点聚类,并通过计算类内距离作为适应度准则,取其最优的结果。通过Web日志挖掘中的Web客户聚类应用比较,表明核聚类方法在性能上比经典的聚类算法有较大的改进,从而实现更为准确的聚类。  相似文献   

10.
聚类分析是数据挖掘中的一个重要研究领域,面对大规模的、高维的数据,如何建立有效的聚类算法是目前一个研究热点。现已有多种直接和快速的聚类算法,但是当处理海量数据时,时间效率仍然有待提高。本文应用三角不等式原理,分别对TTSAS算法和k-means算法提出改进,避免其中冗余的距离计算,提高原算法效率。  相似文献   

11.
K-means算法在聚类过程中随机选取k个初始聚类中心,容易造成聚类结果不稳定。针对该问题,提出PCA-TDKM算法:使用主成分分析法对数据对象集合的属性进行降维,提取出主属性,去掉无关属性,从而加速聚类过程;基于最小生成树算法及树的剪枝方法将数据对象划分为k个初始聚类簇,然后进行剪枝生成k棵子树,计算每棵子树中所有数据对象的均值,作为初始聚类中心;利用基于密度与最大最小距离的算法思想进行聚类。将PCA-TDKM算法与K-means、KNE-KM、QMC KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定、聚类准确率高。  相似文献   

12.
在分析R-树空间索引结构的基础上,采用聚类分析的方法,对R-树空间索引进行研究,提出一种基于聚类分析的R-树节点分裂算法,提高了空间查询效率,并通过仿真实验,验证该算法的有效性。  相似文献   

13.
在分析R-树空间索引结构的基础上,采用聚类分析的方法,对R-树空间索引进行研究,提出一种基于聚类分析的R-树节点分裂算法,提高了空间查询效率,并通过仿真实验,验证该算法的有效性。  相似文献   

14.
提出了一个微粒群优化算法(autoPSO)自动聚类高维数据。autoPSO优化了Davies-Bouldin(DB)有效性函数,并将聚类问题转化为一个界约束的连续函数的优化问题。用一个实数矩阵和一个二进制向量来表示微粒,使得同一迭代中能够表示具有不同聚类数目的划分;并且,在二进制向量的控制下指导相关联的实数矩阵交叉操作,保持算法良好的种群多样性,避免算法早熟收敛。通过高维模拟数据集的实验结果表明,本文算法不需要预设聚类数目k,能够自动正确识别高维数据的聚类。  相似文献   

15.
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

16.
随着维度的增加,使用传统Kd树进行最近邻搜索时效率变低,查询时间变长。为了解决这个问题,采用可学习的Kd树(LK)方法,将待搜索的点输入神经网络,通过神经网络进行定位和查找,最终输出最近邻点的索引值,从而找到最近邻点。结果表明,可使用神经网络代替传统Kd树进行最近邻查找,该方案是有效的、高效的。  相似文献   

17.
随着大数据时代的到来,聚类分析算法将面临如数据量巨大、数据维数增加等挑战,分布式处理是解决这类问题的方法之一.本研究将ROCK算法与Hadoop平台相结合,按照分布式处理原则,通过计算机集群模式去处理大规模的多样性数据.实验证明,在Hadoop平台下的ROCK聚类算法很大程度上提升了对高维数据进行聚类的能力.  相似文献   

18.
娱乐方式日益丰富,产生巨量数据,利用这些数据通过推荐系统可以让用户获得更好的体验,为此提出了DB-CF(DBSCAN-Collaborative Filtering)算法。首先,使用DBSCAN聚类算法对音乐平台的线下用户进行聚类|然后,通过协同过滤算法计算对象用户与各聚类中心的相似度,再通过对比相似度度量矩阵,遍历离对象用户最近的邻居,通过邻居作出评分预测。实验表明,采用DB-CF算法比传统算法准确率提高8%左右,可以产生更准确的推荐结果,为用户带来更好的体验。  相似文献   

19.
差分隐私是能够提供严谨数学证明的隐私保护模型,针对传统差分隐私保护方法在混合型数据集中应用效果差、处理后破坏数据可用性等问题,提出一种面向混合型数据集自适应聚类的差分隐私保护算法.结合快速聚类及k-prototype聚类算法的特点,首先根据混合数据集的不同数据类型属性,采用不同的相异度计算方式实现对不同数据类型属性的距...  相似文献   

20.
为提高园林绿植地被植物引种成功率,在高维数据聚类中采用相似性度量算法分析地被植物引种气候指标间相似度。选取原产于我国新疆维吾尔自治区的皱叶剪秋罗作为地被植物引种品种,新疆哈密地区为引种源地,兰州、武汉、北京、广州等市为目标引种地。以 5 座城市 2015 年气候年值数据中的 8 项气候指标作为分析指标,采用高维数据聚类分析相似性度量算法计算引种地和引种源地间气候环境相似度,依据相似度大小次序,分析遴选出与哈密地区气候环境接近的目标引种地。实验结果表明,基于高维数据聚类分析的相似性度量算法在地被植物引种气候相似性分析中可较好体现引种源地与目标引种地气候相似度,实验结果与实际情况相符。相似性度量算法可为地被植物异地引种提供辅助决策分析,使园林绿植引种更科学。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号