首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
李晓飞  李好 《唐山学院学报》2010,23(4):44-44,45,46
连续属性离散化问题是机器学习的重要方面,是数据预处理问题之一。文章提供的基于粗糙集的层次聚类算法(RAHCA)是对层次聚类算法的一种改进,它能够自动调整参数,以寻求更优的聚类结果。实验结果验证了该算法的可行性,特别是在符号属性聚类方面有着较好的聚类性能。  相似文献   

2.
李晓飞  李好 《唐山学院学报》2010,(3):44-44,45,46
连续属性离散化问题是机器学习的重要方面,是数据预处理问题之一。文章提供的基于粗糙集的层次聚类算法(RAHCA)是对层次聚类算法的一种改进,它能够自动调整参数,以寻求更优的聚类结果。实验结果验证了该算法的可行性,特别是在符号属性聚类方面有着较好的聚类性能。  相似文献   

3.
为了提高数据集中相似重复记录的检测效率,提出一种基于属性权值的分组聚类算法。该方法在记录集中选取特征属性,通过设定的权值对记录进行聚类,在形成的数据子集中进行字段匹配和记录匹配,来识别相似重复记录,并给出了相关算法。实验表明,该方法能减少字段的匹配次数和记录的匹配范围,节省运行时间,具有较高的查全率和查准率。  相似文献   

4.
现有的增量聚类算法虽然解决了数据增量和类簇重叠问题,但在距离度量时没有考虑属性重要度不同,且普遍拥有较高的时间复杂度。针对以上问题,提出一种基于属性重要度的加权三支决策增量软聚类算法(W-TIOC-TWD算法),将属性重要度考虑到距离度量中,弥补了现有算法在聚类过程中将所有属性的重要程度视为相等的不足。该算法还引入离群点概念,降低了算法的时间复杂度。基于人工数据集和UCI数据集的实验结果表明,W-TIOC-TWD算法的聚类准确率优于比较算法。  相似文献   

5.
针对谱聚类算法稳定性较差的问题,提出了一种改进的半监督谱聚类算法。该算法依据图像的颜色、纹理和空间特征进行聚类,通过Bayes距离学习对相似度矩阵的内容进行修正;然后,使用半监督K—means聚类算法对调整后的特征向量进行聚类划分。仿真实验结果表明。较传统谱聚类而言该算法在准确率及稳定性上都有了显著提升。  相似文献   

6.
为进一步提升图像特征点定位准确性,提高图像特征匹配的精度与算法效率,并保持良好的旋转与尺度不变性,文章提出了一种基于SIFT特征点和K-means聚类的图像匹配优化算法,在SIFT特征点基础上,利用亚像素插值和辐射聚类模型对传统算法进行优化,提取更精确的特征点,进一步根据辐射模型中距聚类中心距离比率,计算对象点与聚类中心的相似性,避免了特异点对聚类中心计算产生的突变影响,提高了聚类计算的正确性及特征点正确率.实验证明,在保证旋转不变性与尺度不变性的前提下,本算法实现了在同等距离比率下较原算法的图像匹配精度有较明显提高.  相似文献   

7.
针对传统的文本聚类容易受到噪声影响的问题,提出一个基于词性标注的文本聚类算法。该算法利用词性标注从文本中识别并抽取最能体现文本特征的关键词,再基于所抽取的关键词进行聚类操作。实验发现,相对传统的聚类算法,基于词性标注的文本聚类算法能够有效地提高聚类结果的质量。  相似文献   

8.
针对近年来基于网格和密度的数据聚类算法均需要先验知识确定聚类相关参数的问题,提出了基于动态网格和密度邻接的数据聚类算法。该算法首先分析数据集的特征,确定网格单元的初始值,通过定义全局距离度量函数,对网格单元进行2-1动态递减迭代,最后得到全局最优聚类。实验结果证明:使用该算法对数据进行聚类,能够获得直觉上的最优聚类结果。将该算法应用到对GPS信息聚类中,也得到较为理想的效果。  相似文献   

9.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。  相似文献   

10.
为了改善传统基于聚类的图像分割算法对噪声敏感以及仅使用单一特征无法精确描述目标特性等问题,提出了一种基于区域的多特征图像分割算法。首先,使用 Meanshift 算法对原图像进行预分割,获得一组区域块;其次,提取每个区域块的颜色特征和纹理特征,使用 FCM 算法分别对每个特征进行聚类,针对每个特征获得一个类标签邻接矩阵;再次,将多个邻接矩阵叠加,形成多特征邻接矩阵;最后,使用 NCUT 算法对叠加邻矩阵进行聚类,获得最终分割图像。实验结果表明,基于区域多特征的分割算法优于对比算法,融合多特征对图像分割可以更准确地识别不同的目标结构,具有更好的分割效果。  相似文献   

11.
聚类分析中相似性测量方法的研究   总被引:1,自引:0,他引:1  
聚类是数据挖掘中的主要方法 .讨论了在大多数聚类算法中的相似性测量方法 ,并以属性的类型作为选择相似性的标准 ,阐述了用于数值属性 ,符号属性及混合属性相似性测量方法 .  相似文献   

12.
阐述传统关联规则挖掘Apriori算法的基本原理和算法思想,针对只能处理位置已经被精确给定的对象,利用开源Weka平台,通过数据转换,处理不确定数据集,对鸢尾花数据进行测试实验,挖掘出一些有益的关联结果。  相似文献   

13.
College students’ categorical perceptions of numeric and alphabetic grades were examined by assigning participants to one of four conditions: numeric grades alphabetic grades, numeric non-grades and alphabetic non-grades. They were then asked to give ratings for each possible grade or non-grade, using a 10-point scale. Factor analysis revealed that college students view both numeric and alphabetic grades as occurring in dichotomous categories, presumably either ‘good’ or ‘bad’. There were no neutral categories for course grades. Replications consistently yielded similar results, although specific boundaries between ‘good’ and ‘bad’ grades varied slightly.  相似文献   

14.
数据挖掘是一种在繁多无序单个数据中寻找出有用信息的一个过程,通过数据之间的联系来解释现在和预测未来.随着数据库容量的不断增大,持续重复地访问数据库势必将导致效率和性能的低下,因此探求出一种新的理论方法来减少对数据库的扫描次数已成为近年来国内外的研究热点之一.闭合项目集格空间理论突破了Apriori算法逐层生成k-频繁集和裁减项目集空间的模式,利用新的理论生成新的算法,寻求期刊销售中的潜在规律,从而有效地提高销售量.  相似文献   

15.
为了提高软件的执行效能及提高WMB(WebSphere Message Broker)上大数据消息数据处理的速度,首先定义了单笔柜面交易、硬件标尺、程序执行效率等概念.建立了企业服务总线上的软件执行高效算法(称为WMB*),算法主要解决了在WMB上提高各应用级系统对大数据消息数据及通讯协议的处理和转换速度,以达到提高软件的执行效率.在银行数据集上对不改变大数据消息数据结构和改变大数据消息数据结构的情况做了大量的实验,结果表明,在WMB上,用ESQL语言比JAVA语言在处理消息数据的速度快0.1个数量级,而在CPU占用率(ms/msg)上,用ESQL语言比JAVA语言低得多.WMB*算法适合在大数据上对银行交易数据进行挖掘.  相似文献   

16.
面向高维数据的聚类分析是当今数据挖掘研究的重要领域,其中的关键问题在于如何对高维数据的聚类结果进行高效率的可视化分析。针对这一问题首先使用了数据聚合树(DA树)作为代表高维数据集的数据结构,并将一个新的聚集算法(CLUK算法)应用于该数据集,获得聚类分析的结果,然后搭建了一个可视化平台(Hvis),最后利用平行坐标法在...  相似文献   

17.
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。通过基于迭代思想的聚类算法,可对给定的数据对象集合进行层次分解,最终将样本空间分类成有聚类集合。  相似文献   

18.
为了克服排序学习算法不能处理包括名词性特征的复杂数据类型的局限性,设计一种新的排序学习算法.在决策树学习算法中,采用新的等级不纯度定义,修改决策树的分裂规则,得到具有直观解释的排序算法,并给出了相关理论基础.实验结果表明:排序树的平均等级损失明显优于感知机类算法和序回归类算法,且具有较快的收敛速度.基于决策树的排序学习算法,可以处理名词性数据和选择相关的特征.  相似文献   

19.
针对常规有效信息过滤算法对数据间关联规则识别能力较弱等问题,提出物联网环境下大数据流中有效信息过滤算法。该算法根据数据权重向量维度,通过余弦夹角构建目标相似的大数据推荐模型;设置表层关联与隐含关联预测规则,利用预测函数确定数据间的关联程度;按照数据间的衔接性质,将数据集合划分成若干子集,模糊聚类物联网中的有效信息;根据用户主观倾向设置偏好函数,以协同过滤方式,得到有效信息过滤算法。实验结果表明,与常规有效信息过滤算法相比,该算法对数据关联规则识别能力提升 14.97%,满足当前物联网大数据流中对有效数据的过滤要求。  相似文献   

20.
关联规则是数据挖掘中一个非常重要的任务,有许多针对于关联规则的挖掘算法,然而需要提高算法的有效性来处理现实世界中的数据集。基于聚类的关联规则挖掘算法法通过扫描数据库创建聚类表,将收集的事务记录放入聚类表中,通过局部聚类表的约束来产生频繁项集,不仅可以剪枝候选项集,降低数据扫描的时间,而且确保挖掘结果集的正确性。实验结果表明,基于聚类的关联规则挖掘算法比Apfiori算法有更高的执行效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号