首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
关联规则挖掘是数据挖掘研究领域中的一个重要任务,旨在挖掘事务数据库中有趣的关联。Apriori算法是关联规则挖掘中的经典算法。然而Apriori算法存在着产生候选项目集效率低和频繁扫描数据等缺点。提出了一种新的Apriori的改进算法,该算法在生成k(k>1)项频繁集时,不需要重新扫描数据库,只是在生成1项频集时,才需要扫描事务数据库,有效地减少了对事务数据库的读操作,在时间复杂度上较经典的Apriori算法有更加优越的性能。  相似文献   

2.
关联规则数据结构分布重排的数据库索引算法   总被引:1,自引:0,他引:1  
数据库优化索引是实现文本数据信息智能存储和调用的关键技术,网络信息文本数据具有较大的关联规则特性,造成了数据结构类间干扰,影响数据库索引精度。传统方法采用虚拟数据分布重组数据库索引技术,文本数据库扩展查询中会出现聚类特征不一致。提出一种基于关联规则数据结构分布重排的数据库索引算法。先构建网络信息文本数据库相对关联状态系统模型与关联规则关系图,在此基础上进行数据库规则信息流的结构分布重排,挖掘关联特征,实现数据库索引算法改进。仿真结果表明,采用该算法进行文本数据库索引,提高了特征匹配效率,降低执行时间,展示了优越性能。  相似文献   

3.
关联规则挖掘算法是数据挖掘领域的主要研究方向之一。对几种经典的关联规则挖掘算法进行了分析、探讨和比较,给出了一种基于支持矩阵的、不需要产生候选项目集的算法设计思想。算法为事务数据库中的每个项目设置二进制向量,利用逻辑与运算构造支持矩阵来挖掘频繁项目集,极大地节省了存储空间,提高了算法运行效率。  相似文献   

4.
关联规则挖掘是数据挖掘领域中的一个非常重要的研究内容,其主要目标就是发现数据库中一组对象之间某种关联。频繁项集挖掘是关联规则挖掘的关键步骤,它在很大程度上决定了关联规则挖掘的效率。介绍了Apriori算法及其算法改进。该改进算法对剪枝步进行了优化,提高了连接效率,并且不断减小数据库的规模,去掉无效事务,减少了每次扫描数据库所花费的时间,提高了算法效率。经过试验论证,性能比原有算法提高,具有一定的实用性。  相似文献   

5.
关联规则是数据挖掘领域的一个重要分支。随着数据库的不断变化,关联规则的增量更新变得尤为重要。为了更好地对关联规则进行有效的更新,对已经提出的经典的关联规则更新算法FUP和IUA算法进行分析,指出其优缺点;提出了一个改进的关联规则算法PFUP。该算法减少了候选项集数目,从而减少扫描数据库D的次数,提高了效率。  相似文献   

6.
赵伟 《科技广场》2005,(10):8-12
关联规则挖掘算法为了发现事先未知的关联规则,需要用高效的方法计算出数据库中的大项目集。影响数据挖掘效率的两个因素,一个是数据库大小,另一个是算法的效率。本文算法通过将数据库进行高度压缩,使数据库中的数据量大大减少,同时算法采用逻辑运算方法计算项集的支持数,计算效率较高。  相似文献   

7.
陈静 《大众科技》2012,(6):46-47
关联规则的提取是数据挖掘中的重要研究内容,对关联规则提取中的Apriori算法进行了分析与研究,针对该算法的运算效率不高,对该算法进行了改进,提出了Apriori改进算法.Apriori改进算法采用二进制数据垂直表示方法,只用扫描事务数据库一次得到一阶大项集的二进制数据垂直表示.K阶候选项集的操作只要基于这个一阶大项集,而不需重复扫描数据库,从而提高了挖掘算法的效率.  相似文献   

8.
关联规则挖掘是-种主要的也是用途最广的数掘挖掘方法.本文首先对关联规则挖掘及其经典Apriori算法作了介绍,然后针对Apriori算法的缺陷,提出了一种改进的关联规则挖掘算法,充分地证明了改进算法的性能优势.  相似文献   

9.
关联规则挖掘是数据挖掘领域中的一项重要研究内容,由于数据库规模的不断动态扩展,迫切需要针对增量式关联规则挖掘的研究。在分析现有算法的基础上,分别从两个可改进的角度出发对算法进行优化:先在关联规则挖掘中,提出一个高效的搜索频繁项集算法,该算法只需扫描一次数据库即可完成所有频繁项集的搜索,然后利用此方法设计出一个新的增量式挖掘算法,在不影响准确率的情况下大大地提高了挖掘效率。  相似文献   

10.
控制出生性别比是计划生育管理中的难题,如何通过对育龄妇女的信息进行处理,辅助决策人口宏观政策是政府信息化建设的更新更高目标。本文介绍了数据挖掘技术的概况,详细讨论了数据挖掘中的关联规则方法,通过引入Apriori算法并进行改进,设计一种适合目标数据库的改进算法对影响出生性别比的因素进行客观的评估,并使用相关数据进行关联规则算法的实验,找出各种因素的影响程度,实现对结果的初步分析。  相似文献   

11.
廖开际  杨彬彬 《情报杂志》2012,31(7):182-186
基于词频统计思想的传统文本相似度算法,往往只考虑特征项在文本中的权重,而忽视了特征项之间的语义关系.综合考虑了特征项在文本中的重要程度以及特征项之间的语义关系,提出构建文本特征项的加权语义网模型来计算文本之间的相似度,并在模型构建的过程中,对特征项的选取、权值计算做了适当的改进.最后用实验验证了基于加权语义网的文本相似度算法相较于传统的算法,相似度计算的精确度有了进一步的提高.  相似文献   

12.
孙赵勇  任保平 《资源科学》2013,35(1):102-108
在能源消费研究中经常要将其变化分解为各种因素,通过各种因素的影响程度来分析影响能源消费的变化原因.自20世纪70年代以来,已经发展了多种分解方法,这些方法的假设前提与算法都有较大差异.本文从能源消费变化量与能源强度两个角度介绍了各种分解算法,对其进行了对比,并运用中国制造业的相关数据比较了分解的结果.能源消费变化量的分解方法中,Shapley算法与M-E算法分解结果相同,但是Shapley算法按照各因素的贡献加权来计算各因素对能源消费量的影响,更适合多因素分解;Se-Hark Park算法与AWT-PDM算法能较好地体现经济结构对能源消费量的影响,但AWT-PDM算法由于权数的确定问题,使得该算法存在不能分解的剩余项.能源强度变化的分解方法分为乘法分解和加法分解两大类,乘法分解反映的是能源强度变化率,加法分解反映的是能源强度变化量.Fisher算法与LMDI算法均是对能源强度的完全分解,而Laspeyres算法与AMDI算法均存在剩余项;方法是对AMDI算法的改进.研究者在研究能源问题或环境问题时,应根据研究要求及所掌握的数据选择恰当的分解方法.  相似文献   

13.
Information filtering (IF) systems usually filter data items by correlating a set of terms representing the user’s interest (a user profile) with similar sets of terms representing the data items. Many techniques can be employed for constructing user profiles automatically, but they usually yield large sets of term. Various dimensionality-reduction techniques can be applied in order to reduce the number of terms in a user profile. We describe a new terms selection technique including a dimensionality-reduction mechanism which is based on the analysis of a trained artificial neural network (ANN) model. Its novel feature is the identification of an optimal set of terms that can classify correctly data items that are relevant to a user. The proposed technique was compared with the classical Rocchio algorithm. We found that when using all the distinct terms in the training set to train an ANN, the Rocchio algorithm outperforms the ANN based filtering system, but after applying the new dimensionality-reduction technique, leaving only an optimal set of terms, the improved ANN technique outperformed both the original ANN and the Rocchio algorithm.  相似文献   

14.
Recently, the high popularity of social networks accelerates the development of item recommendation. Integrating the influence diffusion of social networks in recommendation systems is a challenging task since topic distribution over users and items is latent and user topic interest may change over time. In this paper, we propose a dynamic generative model for item recommendation which captures the potential influence logs based on the community-level topic influence diffusion to infer the latent topic distribution over users and items. Our model enables tracking the time-varying distributions of topic interest and topic popularity over communities in social networks. A collapsed Gibbs sampling algorithm is proposed to train the model, and an improved diversification algorithm is proposed to obtain item diversified recommendation list. Extensive experiments are conducted to evaluate the effectiveness and efficiency of our method. The results validate our approach and show the superiority of our method compared with state-of-the-art diversified recommendation methods.  相似文献   

15.
Collaborative frequent itemset mining involves analyzing the data shared from multiple business entities to find interesting patterns from it. However, this comes at the cost of high privacy risk. Because some of these patterns may contain business-sensitive information and hence are denoted as sensitive patterns. The revelation of such patterns can disclose confidential information. Privacy-preserving data mining (PPDM) includes various sensitive pattern hiding (SPH) techniques, which ensures that sensitive patterns do not get revealed when data mining models are applied on shared datasets. In the process of hiding sensitive patterns, some of the non-sensitive patterns also become infrequent. SPH techniques thus affect the results of data mining models. Maintaining a balance between data privacy and data utility is an NP-hard problem because it requires the selection of sensitive items for deletion and also the selection of transactions containing these items such that side effects of deletion are minimal. There are various algorithms proposed by researchers that use evolutionary approaches such as genetic algorithm(GA), particle swarm optimization (PSO) and ant colony optimization (ACO). These evolutionary SPH algorithms mask sensitive patterns through the deletion of sensitive transactions. Failure in the sensitive patterns masking and loss of data have been the biggest challenges for such algorithms. The performance of evolutionary algorithms further gets degraded when applied on dense datasets. In this research paper, victim item deletion based PSO inspired evolutionary algorithm named VIDPSO is proposed to sanitize the dense datasets. In the proposed algorithm, each particle of the population consists of n number of sub-particles derived from pre-calculated victim items. The proposed algorithm has a high exploration capability to search the solution space for selecting optimal transactions. Experiments conducted on real and synthetic dense datasets depict that VIDPSO algorithm performs better vis-a-vis GA, PSO and ACO based SPH algorithms in terms of hiding failure with minimal loss of data.  相似文献   

16.
2.4 GHz频段是蓝牙、WIFI及很多无线设备使用的频段。在这个ISM开放频段内,设备使用中难免会受到相邻频段及正使用该频段的其他设备的干扰,造成信号传输效率低、质量差的情况。对此采用抑制干扰的手段是不现实的,而用规避干扰的办法来解决问题更具优越性、适应性。本文利用FHSS的基本原理,针对不同传输性质的煤气表抄表设备通信要求,采用同步固定跳频算法或自适应跳频算法来实现不同设备间的可靠数据传输,效果显著。  相似文献   

17.
经典的Apriori算法可以搜索出所有的频繁项集,因而被广泛地应用于关联规则数据挖掘系统。研究表明:采用一种辅助分析策略,通过对项集规模的计算简化搜索过程,提高算法效率。  相似文献   

18.
19.
本文对经典理论、项目反映理论和建立在项目反映理论基础之上的自适应考试系统作了描述,并且主要介绍了系统中的组卷算法.其实现过程有两步,第一步利用“加权离差模型”进行选题,而第二步对不同类型的试题使用不同的方法.客观性试题用项目反映理论进一步选择;主观性试题则用经典理论进一步选择。  相似文献   

20.
基于k-means聚类算法的专利地图制作方法研究   总被引:4,自引:1,他引:3       下载免费PDF全文
邱洪华  余翔 《科研管理》2009,30(2):70-76
利用专利文献,制作专利地图是有效监测和了解技术发展现状和趋势的重要手段之一,因此最近几年以来,关于专利地图的研究在知识产权领域引起了广泛的关注。本文分析了专利地图在国内外的研究现状,归纳了专利地图的功能,剖析了当前专利地图制作方法的不足,利用了专利文献中的结构化项目和非结构化项目,通过k-means聚类算法,形成语义网络,并最终制作完成可视化专利地图。而根据该专利地图,可以清晰而直观的看出所研究目标技术领域的技术发展路径。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号