首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
提出采用残差数据合并技术的冗余数据优化挖掘算法,利用训练集建立决策树模型,引入C4.5决策树模型进行冗余数据主特征建模,在主分量特征决策树下,引入残差数据合并技术,设定数据残差特征伴随追踪模式,把传统方法中用于滤除的数据信息进行拼接伴随追踪定位,实现了冗余数据特征的优化挖掘。把方法应用到网络流量时间序列数据处理中实现网络异常监测,仿真实验表明,新的数据挖掘算法能有效提取到冗余数据特征作为有用检测特征,数据挖掘效率大幅提高,有效促进了海量数据隐藏特征的挖掘和应用,设计的网络流量监测软件能提高网络管理和监测实效性。  相似文献   

2.
数据挖掘是目前信息领域和数据库技术领域的前沿研究课题,它涉及到数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度也较大.本文研究了关联规则挖掘技术的基本概念、过程和算法等,为提高数据挖掘效率,提出了基于聚类划分的增量式关联规则挖掘算法.即运用快速聚类方法实现数据划分、运用改进的FP-growth算法实现关联规则的挖掘和运用增量FP-growth挖掘算法实现增量数据挖掘的关联规则挖掘算法.  相似文献   

3.
传统的关联规则挖掘技术过于依赖数据之间的关联属性,造成挖掘算法在高冗余知识空间关联规则不明显或者较弱的情况下挖掘耗时。本文提出一种应用与高冗余知识空间的优化数据挖掘算法。该算法首先找出最大频繁项集和频繁1-项集进行区域分类,然后利用已有频繁项集找出所有的其它频繁项集,去除冗余关联环境,节省了计算频繁项集的时间,节约了存储空间,使算法的效率得到提高。仿真实验结果证明了改进算法的可行性和有效性。  相似文献   

4.
在当前的复杂数据挖掘方法中,多是基于关联规则进行关联挖掘,一旦数据之间的关联性被大量的冗余关联打破,形成数据的无序性,就会出现挖掘耗时,挖掘错误较多的问题.为了解决这一问题,本文提出一种基于信誉兴趣区间划分的数据优化查询算法.在海量的数据中,针对错综复杂的数据关系,通过信誉兴趣函数对数据进行较为清晰地划分.尤其在关联规则较为混乱的情况下,这种方法能够得到更为准确的数据分类区间.实验结果表明,这种数据挖掘方法针对大型数据库中的海量数据挖掘效果更佳,且挖掘算法速度更快,效率更高.  相似文献   

5.
为有效精确地挖掘海量数据流特征,提出采用数据集中位分割和冗余数据碎片合并的方法设计决策树并构建云平台数据特征挖掘模型。传统的云平台下数据挖掘中对碎片信息不做处理,使文本碎片成几何级增长,导致有用信息的丢失。通过挖掘冗余信息中符合挖掘条件的碎片特征,使用KD树进行数据挖掘索引,在迭代过程中,对数据进行层进中位分割,并结合碎片合并技术,构建数据挖掘云平台模型,对中位数进行维度匹配分箱,使数据的挖掘和传输率最大限度地得到利用。仿真实验证明了采用碎片合并的方法能有效提取冗余碎片中的有用特征信息,数据挖掘性能得到大幅度提升,在数据信息提取和管理中具有很好的推广意义。  相似文献   

6.
罗衡郴  周晓辉 《大众科技》2010,(12):26-27,41
将数据挖掘技术应用于电子病历,可以提取出有用的医疗信息并挖掘隐含在其中的医学诊断规则和模式,为疾病诊断和治疗提供科学准确的决策支持。文章应用FP-Growth算法挖掘电子病历系统中的门诊处方,寻找门诊处方中常用药物的联合配伍,并对数据结果进行了药理学分析。  相似文献   

7.
李欣 《情报科学》2018,36(4):95-99
【目的/意义】关联数据发现与个性化信息推送是未来智慧图书馆建设的核心内容。大数据环境下,为了提 高图书馆推送信息的精准度,本文把适合个性化信息推送服务的强关联规则挖掘技术引入到高校图书馆智慧化信 息服务中,研究在图书馆集成管理系统的基础上实现图书的智能查询和个性化信息推送。【方法/过程】在具体的研 究中,由于经典关联规则挖掘需要多次扫描数据库,生成大量的冗余关联规则信息,因此需要重新定义领域内强关 联规则和频繁项目集,提出处理海量数据需要的强关联规则算法。【结果/结论】将改进的算法应用到图书借阅和信 息查询数据的分析中,以减少图书频繁项集的产生,避免冗余规则的挖掘和生成,从而实现关联图书信息的高效挖 掘和个性化推送。  相似文献   

8.
在数字化信息系统中,将大量网络计算资源、存储资源与软件资源等多源信息资源进行多层次异构存储,对信息资源的调度和检索成为难题。传统的多源信息检索方法采用概念格差异融合算法,无法有效识别差异化网络数据的语义特征,检索性能不好。提出一种基于概念格特征分区的多源信息检索优化算法。概念格的生成是进行数据分析、关联分析和挖掘关联规则的前提,首先给出概念格的构造模型,进行概念格特征分区,得到数据库集合的特征概率函数密度,构建满足约束条件的无冗余概念格,计算多源信息的两种相似度系数,挖掘约束关联规则,提高信息检索精度。仿真实验表明,该算法实现多源信息检索性能优越,无偏性好,精度较高。  相似文献   

9.
文章介绍了数据挖掘的主要技术,即关联规则和聚类算法,并针对北京林业大学数字图书馆数据的具体特点,将这两种关键技术运用到图书馆借阅信息挖掘过程中,通过分析挖掘结果,寻找借阅书刊一些潜在的规律,优化图书馆的馆藏布局,提高个性化服务质量。  相似文献   

10.
在软件故障测试和数据库访问中,对非显著特征数据的挖掘是难点,通过对非显著特征数据的挖掘,处理数据分布比较稀疏且呈现模式分布不规则的数据访问问题。提出一种基于链距离估计的非显著特征数据挖掘算法,在时域上对链距离估计模型进行平移处理,给出非显著特征数据的离群因子概念,提取关联度主特征量,基于链距离估计结果,得到有效特征挖掘概率密度值,实现对非显著特征数据挖掘算法改进。仿真实验表明,该算法使得无论是不同密度的点簇相互靠近还是出现模式偏离的情况,都能有效的挖掘出非显著特征点,从而增强了数据挖掘算法的有效性和通用性,采用该法能有效提高非显著特征数据的挖掘性能,数据挖掘的命中率较高,在数据库访问和软件故障测试等领域具有应用价值。  相似文献   

11.
统计量化规则(SQ rule)在数据挖掘中拥有重要和有用的地位。尽管集中式挖掘SQ规则的算法已经存在,但是集中式算法不能简单应用到分布式环境中,尤其涉及到分布式环境中各方的私有信息保护的时候。考虑数据分布共享的多方,在不泄漏各自的私有信息的情况下,合作完成SQ规则的挖掘问题。该问题属于保护私有信息的数据挖掘(PPDM)研究领域的问题。基于3个PPDM的基本工具,包括安全求和、安全求平均和安全求频繁项集的集合等,提交2个算法,共同完成水平划分数据下的保护私有信息的SQ规则挖掘。其中,一个算法安全计算置信区间,该区间用来检验规则的重要性;另一个算法安全挖掘规则。最后,给出算法的正确性、安全性和复杂性分析。  相似文献   

12.
基于多因素方差分析的文本向量特征挖掘算法   总被引:2,自引:0,他引:2  
文本向量特征挖掘应用于信息资源组织和管理领域,在大数据挖掘领域具有较大应用价值,传统算法精度不好。提出一种基于多因素方差分析的文本向量特征挖掘算法。使用多因素方差分析方法得到多种语料库的特征挖掘规律,结合蚁群算法,根据蚁群适应度概率正则训练迁移法则,得到种群进化最近时刻获得的数据集有效特征概率最大值,基于最优划分的K-means初始聚类中心选取算法,先对数据样本进行划分,然后根据样本分布特点来确定初始聚类中心,提高文本特征挖掘性能。仿真结果表明,该算法提高了文本向量特征的聚类效果,进而提高了特征挖掘性能,具有较高的数据特征召回率和检测率,时间耗时较少,在数据挖掘等领域应用价值较大。  相似文献   

13.
基于Web的数据挖掘技术   总被引:1,自引:0,他引:1  
Web数据挖掘有很多研究热点,其中关联规则挖掘是Web数据挖掘领域研究的一个重要方面.本文首先对数据挖掘、Web数据挖掘和Web数据预处理等相关知识进行了阐述;然后研究了关联规则基本理论及关联规则经典算法;最后为了解决现实数据库中每个项目的分配不均匀性和重要性差异,重点研究了加权关联规则挖掘算法.  相似文献   

14.
对大数据的频繁项集挖掘是关联规则挖掘的关键步骤,通过有效的频繁项挖掘提高大数据量数据库的访问效率。传统方法中对大数据的频繁项集挖掘采用FP-Growth的粗糙集挖掘算法,扩展性和容错性不好。提出一种基于贝叶斯粗糙集的大数据频繁项挖掘技术,引入后缀项表的概念,通过后缀项表的构建,保留频繁项集的完整信息。构建FP-Tree,生成闭频繁项集,计算样本的密度,并抽取高密度区域的点集作为聚类中心集合,进行后缀项表的构造,按支持度分成若干集合,对各约简集内的属性集合进行融合,用变精度粗糙集的贝叶斯粗糙进行数据挖掘算法改进,仿真结果表明,算法不受可变参数的影响,鲁棒性较高,数据挖掘的准确度较高,运行时间较短。算法将在人工智能和数据挖掘领域具有更广的应用前景。  相似文献   

15.
针对专网通信计费系统中,由于互联信息存在大量的冗余特征,导致大幅降低了数据联系特征属性,使得计费信息查询效率较低的问题.本文提出一种改进关联规则的专网通信计费分析数据的挖掘算法.通过计费数据属性扩展算法,对计费数据属性间的关联性进行扩展,有效排除冗余数据的干扰,增强数据间的联系性.实验与仿真结果证明,这种算法能够有效地消除冗余数据的干扰,计费数据查询的准确率较高,耗时降低.  相似文献   

16.
湛宁  宋文军 《科技通报》2013,29(2):195-196,199
研究了基于关联规则的Apriori算法、FP-Growth算法,分析了两类算法的缺点.提出利用遗传算法改进关联规则挖掘算法,给出了属性种群和规则种群的适应度函数,并且给出了具体的算法流程.利用某企业服务网站WEB服务器的使用日志,来测试3种算法的性能.实验结果表明,改进算法的运行时间最短,提高了数据挖掘效率,完全可以应用于电子商务系统中.  相似文献   

17.
关联规则是数据挖掘中一个重要的研究内容。典型的关联规则发现算法是由R.Agrawal等提出的Apriori算法。本文研究了数据挖掘技术中的关联规则算法。对经典的Apriori算法作了全面的分析,指出了挖掘中的关键步骤,提出算法的不足,并给出了算法可以改进的方向。  相似文献   

18.
数据挖掘是一种重要的数据分析方法,旨在发现庞大的数据中隐藏着的、先前未知的并潜在有用的模式和信息,以帮助人们正确理解和认识数据,进行科学决策。关联挖掘是数据挖掘中研究最早也是最活跃的领域,其中,频繁模式挖掘是关联挖掘的核心和基础。对关联挖掘算法的研究和发展进行综述,分析挖掘算法面临的主要挑战,概括最新研究进展。  相似文献   

19.
张蓉  钟艳 《科技通报》2014,(4):47-49
为开发高效的数据挖掘算法,实现模糊集聚类算法的高效性,将BIRCH聚类算法思想与模糊集算法进行融合。通过对模糊集算法处理的数据进行二次聚类计算,细化群边缘,最后加载判别函数进行数据定位,完成数据挖掘。最后使用KDDCUP2011数据库进行仿真实验,对目标数据进行挖掘,证实了融合BIRCH聚类算法思想的模糊集算法具有可行性,对比改进前的算法在数据挖掘方面效率更高。  相似文献   

20.
随着大数据信息技术的发展,数据在线监测和数据挖掘成为计算机信息领域研究的热点。通过对Web热点数据分割挖掘,提高信息热点追踪和Web数据分类能力。传统算法采用非结构化数据挖掘算法,无法有效对Web热点数据进行准确定位和分层挖掘。提出一种基于半结构化分割的Web热点数据挖掘算法。采用半结构化数据进行特征分割,基于优秀基因位进行差分进化,使寻优曲线不断趋于平缓,在多个节点上并行的运行比较脚本,采用半结构化分割,使得Web热点特征挖掘实现自适应寻优,得到Web热点数据的分配因子,提高了挖掘性能。仿真结果表明,该算法获得了良好的效率和精度,提高了Web热点数据挖掘的自适应寻优能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号