首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 175 毫秒
1.
K-均值聚类算法是一种基于划分方法的聚类算法,本文通过对传统的K-均值聚类算法的分析,提出了一种改进的K-均值算法,并对该算法的时间复杂度和空间复杂度进行了分析。该算法在计算聚类中心点时采用了一种最近邻的思想,可以有效地去除"噪声"和"孤立点"对簇中平均值(聚类中心)的影响,从而使聚类结果更加合理。最后通过实验表明该算法的有效性和正确性。  相似文献   

2.
针对K-means聚类算法无法确定k值,并容易忽视在多维角度下进行聚类的缺点,本文提出了改进的多维度的加权的算法,在自适应K-means聚类算法的基础上引入了视图权重和变量权重,得到了包含多层变量的目标函数,通过数学证明使得目标函数最小化,得到最优的聚类效果。实验采用3个标准数据集作为聚类研究的对象,通过与FCM算法比较,说明了本文算法在聚类方面具有良好的效果。  相似文献   

3.
本文根据当今答疑系统数据库的缺点,提出了一套基于数据挖掘算法的数据仓库设计方案,将改进的关联规则算法与聚类算法用于提取后台数据库中的有用信息,形成一个可以直接用于数据挖掘的数据仓库。实验证明该方案具有智能性,自我更新性能,节约存储空间和提高答疑效率等优点。  相似文献   

4.
一种改进的K-means算法   总被引:1,自引:0,他引:1  
K-means算法是聚类算法中最经典的划分算法之一,它对初值的依赖性很强,聚类结果随初始聚类中心选择的不同而波动很大。提出了一种改进的K-means算法,运用Kruskal算法生成聚类对象的最小生成树(MST),按权值从大到小删去K-1条边,得到的K个连通子图中对象的均值作为初始聚类中心进行聚类。由仿真实验表明,K-means算法较传统算法有更好的聚类效果和准确性。  相似文献   

5.
在K-均值聚类分析算法和网格聚类算法基础上,对两种算法进行整合并提出了一种新的KG.CA聚类分析算法。通过对计算密度阀值的函数的改进,本文提出了一种基于网格的K-均值聚类分析算法。最后通过详细的数据分析和计算验证KGCA聚类分析算法可以有效降低凝聚度,和提高分离度从而有效提高聚类效率。  相似文献   

6.
文本自动聚类技术研究   总被引:1,自引:0,他引:1  
自动聚类作为一种自动化程度较高的无监督机器学习技术,在信息检索和数据挖掘领域得到了广泛的应用.探讨了文本聚类的定义和步骤,依据文本自动聚类的步骤分别对文本的处理、自动聚类算法以及文本聚类结果的评价进行了阐述.  相似文献   

7.
讨论了聚类分析及文本挖掘,分析了一种用模拟退火思想改进的K均值聚类算法在文本挖掘中的应用。传统的信息检索技术已经不适应日益增加的、大量文本数据处理的需求。如何从数据中分析和提取有用信息即文本挖掘已经成为数据挖掘中日益流行与重要的研究课题。  相似文献   

8.
荆永菊 《情报探索》2012,(10):23-24
聚类方法可以用于高校图书馆数据挖掘.文章针对具体应用讨论了两种聚类方法,一种是需要提供类别数目参数的K-均值聚类方法,另一种是不需要提供类别数目参数的均值漂移聚类方法.根据图书馆数据挖掘的具体要求,采用不同的聚类方法能够更好地作出分析.  相似文献   

9.
研究高效进行数据聚类,提高数据聚类能力的问题。传统的模糊C均值算法具有对初始值和噪声极为敏感和遗传算法在局部极值点收敛的缺陷。基于模糊c均值聚类算法,提出一种改进的优化聚类算法。利用混沌序列的均匀遍历特性和差分进化算法的高效全局搜索能力,对模糊c均值算法进行改进,利用Logistics混沌映射对聚类算法进行优化搜索,把混沌扰动量引入到进化种群当中,弥补了模糊C均值算法的缺陷。采用改进的Logistics映射扰动搜索聚类算法,以目标识别为案例,综合4类目标特征参数为研究对象,开发了一套有价值的目标识别专家系统软件。仿真实验表明,改进的数据聚类算法,具有优越的数据聚类性能,聚类判断准确率提高明显,设计的专家系统软件对目标识别特征分类具有较好的准确性和可靠性,具有一定的应用价值。  相似文献   

10.
传统数据挖掘方法对数据挖掘时必须为高速通信网络,而且还导致系统响应时间延长,对数据安全性产生威胁。文中以分布式环境为背景,提出基于熵值思想的聚类挖掘改进方法,实现网络多层次数据挖掘。设定网络多层次数据聚类参数,计算产生新聚类数,将该数据值作为聚类搜索范围的上限值kmax,选取合适的有效性Silhouette指标,结合最大最小距离理论设置的聚类中心,获得最佳聚类数目;运用熵值理论及动态规划思想形成改进聚类挖掘方法,运用熵值理论判定数据属性权重值,并获取多层次数据对象与邻近数据间的权重关系,将欧氏距离当作数据相似度衡量依据;利用动态规划思想计算获得最大k个数据对象,确定多层次数据挖掘聚类中心。实验证明,利用文中改进数据挖掘方法可有效挖掘网络多层次数据中的有价值信息。  相似文献   

11.
对银行客户细分的挖掘模型做了讨论,将数据挖掘中的K-means算法应用于其中。通过提供针对本文具体实例的聚类算法,得出了具有实际意义的挖掘结果,并给出相关的参考营销策略,以便读者参考。  相似文献   

12.
构建医药制造业竞争力评价指标体系,运用数据挖掘技术(K-均值聚类算法)定量评价竞争力,得出相应结论,为政府和企业决策提供参考。  相似文献   

13.
聚类算法通常用于数据的聚类。除此,它还可以用于异常数据的检测。首先介绍了基于划分的聚类算法K-means,然后给出改进算法I-K-means的算法描述,最后通过实例进行异常分析。  相似文献   

14.
高新技术产业竞争力评价实证研究   总被引:4,自引:0,他引:4  
陈红川 《软科学》2010,24(8):21-23,29
构建高新技术产业竞争力评价指标体系,运用数据挖掘方法(K-均值聚类)进行高新技术产业竞争力评价,重点分析广东高新技术产业竞争力,并提出相应对策。  相似文献   

15.
高新技术产业技术创新能力评价实证研究   总被引:5,自引:1,他引:4  
构建高新技术产业技术创新能力评价指标体系,运用数据挖掘方法(K-均值聚类)对高新技术产业技术创新能力进行评价,特别分析广东高新技术产业技术创新能力,并提出相应建议.  相似文献   

16.
基于改进特征提取及聚类的网络评论挖掘研究   总被引:1,自引:0,他引:1  
[目的/意义]针对信息过载条件下中文网络产品评论中特征提取性能低以及特征聚类中初始中心点的选取问题。[方法/过程]本研究提出采用基于权重的改进Apriori算法产生候选产品特征集合,再根据独立支持度、频繁项名词非特征规则及基于网络搜索引擎的PMI算法对候选产品特征集合进行过滤。并以基于HowNet的语义相似度和特征观点共现作为衡量产品特征之间关联程度的特征,提出一种改进K-means聚类算法对产品特征进行聚类。[结果/结论]实验结果表明,在特征提取阶段,查准率为69%,查全率为92.64%,综合值达到79.07%。在特征聚类阶段,本文提出的改进K-means算法相对传统算法具有更优的挖掘性能。  相似文献   

17.
随着电网建设的不断完善升级,电力客户对于电力产品及其配套服务的品质要求不断提升,并且逐渐呈现高要求、差异化的发展趋势.面对客户需求的差异化和企业内部服务资源的有限性,供电企业有必要对客户进行科学合理的细分,实施差异化管理.下以供电企业的大数据为依托,运用数据挖掘技术,从客户的供电可靠性要求、客户价值和客户行为3个维度,建立细分指标体系,利用K-means聚类算法建立客户细分模型,并以南网某省为例进行实证分析,最终证明了所建立的细分模型是合理的.  相似文献   

18.
一种基于聚类的云计算任务调度算法   总被引:1,自引:0,他引:1  
任务调度是云计算中的一个关键问题.针对 Min-Min 算法负载不平衡的缺点,引入 K-means 聚类,提出一种基于 K-means 聚类和 Min-Min 的云计算任务调度的新算法.该算法采用 K-means 聚类方法依据任务长度对任务聚类进行预处理,然后根据 Min-Min 算法的机制进行任务调度.仿真结果表明,该算法具有较好的负载均衡性和系统性能.  相似文献   

19.
丁堃  李鑫 《科学学研究》2008,26(2):373-377
 随着中文文本挖掘技术的不断发展,使以内容分析为基础的科技文献计量成为可能。本文以我国知识管理研究出现以来的5000余篇学术期刊载文为分析对象,以特征选择算法抽取出10,000个特征词为基础,采用向量空间模型(VSM)和文本挖掘技术中的有序聚类方法,揭示出知识管理学科领域的研究内容在我国经历的三个发展阶段,同时还从特征词入手对这三个发展阶段的研究特点进行了归纳总结。将文本挖掘的相关技术应用到学科领域发展的研究中是一个很有意义的尝试,也为今后相关领域的研究工作起到一个很好的借鉴作用。  相似文献   

20.
Arabic is a widely spoken language but few mining tools have been developed to process Arabic text. This paper examines the crime domain in the Arabic language (unstructured text) using text mining techniques. The development and application of a Crime Profiling System (CPS) is presented. The system is able to extract meaningful information, in this case the type of crime, location and nationality, from Arabic language crime news reports. The system has two unique attributes; firstly, information extraction that depends on local grammar, and secondly, dictionaries that can be automatically generated. It is shown that the CPS improves the quality of the data through reduction where only meaningful information is retained. Moreover, the Self Organising Map (SOM) approach is adopted in order to perform the clustering of the crime reports, based on crime type. This clustering technique is improved because only refined data containing meaningful keywords extracted through the information extraction process are inputted into it, i.e. the data are cleansed by removing noise. The proposed system is validated through experiments using a corpus collated from different sources; it was not used during system development. Precision, recall and F-measure are used to evaluate the performance of the proposed information extraction approach. Also, comparisons are conducted with other systems. In order to evaluate the clustering performance, three parameters are used: data size, loading time and quantization error.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号