首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 174 毫秒
1.
对大数据的频繁项集挖掘是关联规则挖掘的关键步骤,通过有效的频繁项挖掘提高大数据量数据库的访问效率。传统方法中对大数据的频繁项集挖掘采用FP-Growth的粗糙集挖掘算法,扩展性和容错性不好。提出一种基于贝叶斯粗糙集的大数据频繁项挖掘技术,引入后缀项表的概念,通过后缀项表的构建,保留频繁项集的完整信息。构建FP-Tree,生成闭频繁项集,计算样本的密度,并抽取高密度区域的点集作为聚类中心集合,进行后缀项表的构造,按支持度分成若干集合,对各约简集内的属性集合进行融合,用变精度粗糙集的贝叶斯粗糙进行数据挖掘算法改进,仿真结果表明,算法不受可变参数的影响,鲁棒性较高,数据挖掘的准确度较高,运行时间较短。算法将在人工智能和数据挖掘领域具有更广的应用前景。  相似文献   

2.
研究频繁项集模式挖掘优化问题。传统的挖掘算法常产生大规模的候选项集,并且反复扫描数据库,导致频繁项集挖掘时间过长,空间效率太低。为了改进频繁项集挖掘时时间与空间效率低的问题,提出一种高效频繁项集挖掘算法CPT-Mine。此算法利用编码模式树存储事务数据库中的频繁项集信息,构建FP数组,加快产生频繁项集,引入CPT-Mine算法,快速地挖掘数据库中所包含的频繁项集,无需递归构造条件模式树,只需两次扫描数据库即可生成所有频繁项集。最后的实验证明了该算法能缩短挖掘时间3~10 s,空间效率提高43%。  相似文献   

3.
频繁项集挖掘算法研究   总被引:2,自引:0,他引:2  
在数据库中挖掘频繁项集是数据挖掘领域的最基本、最重要的问题。自从Agrawal的开创性工作以来,有关研究从未停止过。然而由于其内在的计算复杂性,这一问题并未完全解决。通过描述频繁项集挖掘的特点,并根据解空间的分类对已有各种频繁项集、闭频繁项集、最大闭频项集和不生成频繁项集的挖掘算法进行了分析和比较。  相似文献   

4.
针对频繁项集挖掘时间与空间效率低的问题,提出一种基于New FP-tree的高效频繁项集挖掘算法。此算法利用New FP-tree结构存储事务数据库中的频繁项集信息,无需递归构造条件模式树,仅需两次扫描数据库即可生成所有频繁项集。最后的实验证明了该算法的有效性。  相似文献   

5.
在挖掘关联规则的过程中,关键步骤是产生频繁项集。文中利用逻辑与运算并建立频繁项集支持矩阵,提出一种有效的频繁项集挖掘算法—LA。算法利用逻辑与运算挖掘频繁项集,不产生候选项集,且只需扫描数据库一次,所以此算法是非常有效的。  相似文献   

6.
翟悦 《科教文汇》2011,(4):89-90
针对传统的Apriori算法需要产生大量的候选项目集和多次扫描数据库的不足,提出了一种新的基于内积运算的频繁项集生成算法。该算法对事务数据库布尔化表示,通过内积运算搜寻矩阵行向量直接生成频繁项集,打破了频繁项集必须从低次到高次的局限,当频繁项集可能是大项集时,大大提高了搜索效率。  相似文献   

7.
在挖掘关联规则的过程中,关键步骤是产生频繁项集。文中利用逻辑与运算并建立频繁项集支持矩阵,提出一种有效的频繁项集挖掘算法-LA。算法利用逻辑与运算挖掘频繁项集,不产生候选项集,且只需扫描数据库一次,所以此算法是非常有效的。  相似文献   

8.
传统的关联规则挖掘技术过于依赖数据之间的关联属性,造成挖掘算法在高冗余知识空间关联规则不明显或者较弱的情况下挖掘耗时。本文提出一种应用与高冗余知识空间的优化数据挖掘算法。该算法首先找出最大频繁项集和频繁1-项集进行区域分类,然后利用已有频繁项集找出所有的其它频繁项集,去除冗余关联环境,节省了计算频繁项集的时间,节约了存储空间,使算法的效率得到提高。仿真实验结果证明了改进算法的可行性和有效性。  相似文献   

9.
Apriori算法是关联规则挖掘中的经典算法。在Apriori算法中,使用频繁项集的先验知识,逐层搜索的迭代方法,通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找每个Lk都需要扫描一次数据库。算法的效率随着数据量的增大,频繁项集的增多,算法的效率就非常的低,本文通过对Apriori算法分析,应用散列、事务压缩、划分、抽样等方法,最大可能的减少数据库扫描的次数,快速发现频繁项集,提高Apriori算法的效率。  相似文献   

10.
为了提高电子商务推荐系统的精度,提出了基于关联集合的协同过滤推荐算法,该算法通过频繁项集生成算法生成一系列频繁项集,然后通过合并处理过滤掉与用户关联很小的一些噪音项目,从而使协同过滤算法更加有效。该算法在推荐精度上比传统的方法优越。  相似文献   

11.
基于嵌入式设备FPGA,对无损压缩算法Deflate算法进行加速。采用哈希表方法,把Deflate核心算法用在FPGA上,实现了软硬件协同设计。独创性地设计并实现了窗口大小为32K的Deflate算法。主要介绍该设计的哈希表模块部分。  相似文献   

12.
在FDM算法的基础上,提出了一种改进的并行关联规则挖掘算法FDM_DT,此算法利用DHP算法中的Hash表技术改进了2阶侯选项集的生成过程,并采用Apriori Tid算法中的Tid表技术对事务数据库中的事务数进行有效消减。因此,此算法在处理大规模数据时有较高的综合效率。  相似文献   

13.
随着互联网技术的不断发展,以图像为主要载体的多媒体信息大大丰富了我们的生活。但由于图像数据量庞大,存储和传输时受到很大限制,使得图像压缩成为图像处理中的一个重要环节。图像压缩就是利用图像自身的相关性来消减图像的冗余信息,保留有用的信息。经过多年的研究,人们已经提出了多种图像压缩方法,并在许多领域取得了良好的应用效果。但这些方法主要是针对普通密度的图像,而对于稀疏图像的压缩,目前有效的压缩方法还屈指可数。对图像压缩技术的发展历程进行了回顾,给出了一种基于哈希表的对稀疏数据压缩方法,并利用VC++6.0平台,实现了基于哈希表的数据压缩系统。  相似文献   

14.
基于改进特征提取及聚类的网络评论挖掘研究   总被引:1,自引:0,他引:1  
[目的/意义]针对信息过载条件下中文网络产品评论中特征提取性能低以及特征聚类中初始中心点的选取问题。[方法/过程]本研究提出采用基于权重的改进Apriori算法产生候选产品特征集合,再根据独立支持度、频繁项名词非特征规则及基于网络搜索引擎的PMI算法对候选产品特征集合进行过滤。并以基于HowNet的语义相似度和特征观点共现作为衡量产品特征之间关联程度的特征,提出一种改进K-means聚类算法对产品特征进行聚类。[结果/结论]实验结果表明,在特征提取阶段,查准率为69%,查全率为92.64%,综合值达到79.07%。在特征聚类阶段,本文提出的改进K-means算法相对传统算法具有更优的挖掘性能。  相似文献   

15.
对等管理信息系统平台研究   总被引:1,自引:0,他引:1       下载免费PDF全文
摘要:为了解决大规模分布式管理信息系统中的高速信息共享等问题,提出了基于对等结构的管理信息系统平台。给出了该系统平台的节点模型、管理策略及信息共享流程;提出了一种结合分布式哈希表和聚类的高速检索方法,保证了用户能够在分布式管理系统中快速的精确检索和分类检索;实现了系统的用户透明;为了保证分布式管理信息系统中的分布式多副本同步,提出了“对等锁”作为数据一致性维护方法。同时,给出了平台的具体实现方法,并给出了实例;实验结果表明,该平台具有良好的信息共享性能、高效的搜索能力和相当的容错能力。  相似文献   

16.
何学文  张磊 《大众科技》2012,14(3):16-17
对识别后的语音文档进行了向量空间模型的建立,针对得到的高维稀疏矩阵提出了基于局部敏感哈希的语音文档分类算法,算法能够直接在高维稀疏矩阵上进行分类,无需降维。此外,在构建局部敏感哈希函数的时候结合了稳定分布。实验证明,局部敏感哈希算法能够对语音文档进行合理有效的分类,同时获得了较小的时间复杂度。  相似文献   

17.
将标准平面结晶体P1迭代公式中的自变量x,y用x3+c1,y3+c2替换,构造可视化平面动力系统.将原有的自变量的线性关系替换为自变量的非线性关系,提出了一种新的自变量的映射方法.并且运用蒙特卡罗搜索法寻找参数,运用李雅普诺夫指数来确定该动力系统的特性,绘制出该动力学系统的混沌吸引子和充满Julia集的图案。  相似文献   

18.
主要探讨了基于MD方式构造hash函数时平衡度的保持问题,说明了压缩函数满足何种条件时hash函数能够取得最好的平衡度,提出了局部平衡度的概念,并利用此概念解决了压缩函数局部平衡度与Hash函数平衡度的关系的问题。这对于未来的hash函数的设计有非常重要的意义。  相似文献   

19.
经典的Apriori算法可以搜索出所有的频繁项集,因而被广泛地应用于关联规则数据挖掘系统。研究表明:采用一种辅助分析策略,通过对项集规模的计算简化搜索过程,提高算法效率。  相似文献   

20.
Metric space is a universal and versatile model of similarity that can be applied in various areas of non-text information retrieval. However, a general, efficient and scalable solution for metric data management is still a resisting research challenge. In this work, we try to make an important step towards such management system that would be able to scale to data collections of billions of objects. We propose a distributed index structure for similarity data management called the Metric Index (M-Index) which can answer queries in precise and approximate manner. This technique can take advantage of any distributed hash table that supports interval queries and utilize it as an underlying index. We have performed numerous experiments to test various settings of the M-Index structure and we have proved its usability by developing a full-featured publicly-available Web application.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号