首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
离群点研究在实际应用中有着重要的意义,随着数据规模的不断扩大,传统的离群点检测方法已经不适用于高维空间数据,本文在遗传算法的基础上结合模拟退火算法,一方面利用遗传算法对高维数据处理有很好的全局搜索能力,一方面利用模拟退火算法的局部搜索能力,最后经实验证明,本文提出的新算法能有效的提高高维空间离群点检测的效率.  相似文献   

2.
针对传统离群点检测算法的局限性进行研究,利用数据对象之间的相邻关系,提出了一种基于密度和距离相结合的离群检测算法,该算法解决了基于距离的离群检测算法不能准确识别局部离群点的问题,有效避免由于稀疏和密集簇过于邻近的而出现离群点误判的情况。通过在人工模拟数据及真实数据集上的实验测试证明改进算法的可行性,该算法能更有效地检测出数据集中的离群对象。  相似文献   

3.
针对数据挖掘中高维数据多分类问题,提出了一种基于二分K均值的SVM决策树的高维数据分类方法.该方法先利用二分K-均值将高维数据基本聚为k类,再构造SVM多分类模型,利用它对各类进行细分.本文给出了该模型的构造及应用方法,并在标准数据集上验证了该方法的有效性.  相似文献   

4.
为降低风电场的运营成本和提高设备维护效率,提出了基于离群点检测和PSO-BP的风速预测模型。将基于距离和统计学的离群点检测方法结合,并通过分组剔除风速数据中的异常值;然后利用小波阈值去噪算法对风速数据进行去噪;最后使用粒子群算法优化后的BP神经网络进行预测。仿真结果证明,改进的离群点检测方法和小波阈值去噪降低了风速数据的波动性和随机性;对于3组不同风速数据,基于离群点检测和PSO-BP预测模型的预测精度均高于其他对比模型。  相似文献   

5.
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

6.
电类实验教学在高等院校中覆盖面广,实验过程中学生所测数据量大,人工评判数据工作繁琐。随着在线实验教学的普及,迫切需要一种实验数据智能评判的方法。依据Mean Shift思想提出一种基于距离的离群点检测(MSOD)算法,以理论计算值作为初始点,沿着概率密度梯度的方向寻找数据集最稠密的位置,与该位置的距离大于某一特定值的数据为离群点,离群点数据即为测量有误的数据。实验结果表明,MSOD算法识别错误实验数据的效果较好,可以有效地减少实验教学中重复繁琐的人工评判数据的工作,节约人力成本,提高实验教学效率。与现有的离群点检测算法比较,MSOD算法提高了错误数据识别的正确率,并且降低了时间成本。  相似文献   

7.
离群数据检测是找出与正常数据不一致的数据。学生评教中由于某种原因,会出现一些评教噪声数据。针对学生评教中噪声数据的特征,提出了一个基于熵值距离的离群点检测算法,该算法通过比较每个数据点所对应的熵值和整个数据集的熵值,来判断数据点的离群程度。仿真结果表明该算法对学生评教中出现的噪声数据具有较好的过滤效果。  相似文献   

8.
以基于数据挖掘方法的入侵检测技术研究为核心,对数据挖掘技术和入侵检测技术进行了研究和分析,探讨了数据挖掘方法中聚类算法在入侵检测中的应用,提出了一种基于最短距离算法的最近邻优先(NearestNeighbor First)算法,并采用KDD Cup 1999数据集中的数据对该算法的执行效率进行检测.  相似文献   

9.
离群点又称特异点、兴趣点、偏离点、新颖点、异常点等。通过离群点识别可发现异常事件与新现象。随着信息技术的发展和信息量爆炸式增长,通过识别数据中的离群点获得潜在信息成为研究热点。首先简要介绍几种主要的离群点识别方法,并分析各种方法的优缺点,为相关使用者学习、选择和改进算法提供参考。阐述离群点识别的研究热点和应用邻域,并分析现有算法在识别高维、空间和时序数据离群点的难点,便于研究者提出新的相关离群点识别方法。  相似文献   

10.
针对电力系统短期负荷特性,提出了基于局部线性嵌入(Linear Local Embed,LLE)和支持向量机(Support Vector Machine,SVM)技术的短期负荷预测模型。该模型利用LLE算法对负荷样本的数据挖掘知识,得到了高维输入样本的低维映射,最后利用具有非线性拟合、泛化能力强的SVM进行回归。  相似文献   

11.
面向高维数据的聚类分析是当今数据挖掘研究的重要领域,其中的关键问题在于如何对高维数据的聚类结果进行高效率的可视化分析。针对这一问题首先使用了数据聚合树(DA树)作为代表高维数据集的数据结构,并将一个新的聚集算法(CLUK算法)应用于该数据集,获得聚类分析的结果,然后搭建了一个可视化平台(Hvis),最后利用平行坐标法在...  相似文献   

12.
在对3维模型2维投影图利用区域的Fourier变换提取其形状特征的基础上,提出了一种新的基于特征序列为训练模型的异常检测算法。首先对高维特征序列进行约减至低维序列;其次,引入序列局部模式的相似度和异常值的定义对任意的测试集区分异常。通过PSB数据集实验证明了该方法的有效性和合理性。  相似文献   

13.
随着网络规模的不断扩大,为了保障网络安全、稳定运行,需要一种更高效的网络故障预警算法。通过对传统网络故障预警算法优缺点的分析,针对其缺点进行优化改进,采用离群点检测算法建立网络故障预警模型。对异常检测算法数据进行预处理,在 Hadoop 平台上计算数据异常指数,并不断调整阈值参数。实验结果表明,改进型离群点检测算法故障检测率达到 98%,可对网络故障进行有效预警。  相似文献   

14.
垃圾邮件处理作为一种典型的文本分类应用问题,受到高维数据的困扰。为提高垃圾邮件检测的效率和准确率,提出一种基于PLS特征提取和SVM的入侵检测算法,首先对原始垃圾邮件数据利用偏最小二乘算法降低维度,再采用遗传算法寻优转换特征子集,并通过支持向量机SVM进行分类。 Matlab仿真实验表明,本算法能有效降低数据维数,提高检测的准确率。  相似文献   

15.
目前,许多入侵检测系统都是采用误用检测模式,无法检测出未知的攻击;而一些基于数据挖掘的异常检测系统,虽然对未知攻击具有较高检测率,但普遍的缺点是误报警率很高,导致真正的攻击湮没在大量的误报警之中.通过对误用检测和异常检测的研究,结合它们的优点,提出了一种基于随机森林算法的混合入侵检测系统:首先使用基于Snort的误用检测组件过滤掉网络数据中的已知攻击;之后,数据被送人异常检测组件.在此组件中,通过对随机森林算法的改进,设计了一种无监督的离群点检测方式,可以有效检测出新的攻击,并且在误报警率很低的时候,也能得到较高的检测率.  相似文献   

16.
随着互联网广泛应用于人们的生产和生活实际中,应用大量数据来解决实际问题成为一种新型的职业类型和行业特点,因此广大数据处理和数据分析师们在数据分析工作方面做了许多研究,在数据分析和数据处理的过程中,经常遇到复杂高维数据,如何采取一定的降维方法将高维数据转化为低维数据,而常见的降维方法分为线性和非线性两大类,本文通过高维数据分析过程中的降维工作总结了一些经典的降维方法,在此基础上阐述了降维方法的研究对于数据分析以及数字化行业的好处和优势。  相似文献   

17.
聚类分析在数据挖掘领域中占有重要地位,到目前为止学者们提出了许多的聚类算法.本文提出了一种基于k NN的聚类算法k-Nearest Neighbor Cluster(k NNC).该算法首先找到每个数据点的k个邻居点,然后设置匹配点数n,通过使用每个点的邻居点进行匹配进而达到聚类效果.本文通过三个实验去验证该算法,并且与k-means算法进行比较.实验结果表明,该算法具有稳定的正确率,而其最大的优点是不需要预先设定聚类簇数,它可以大致的找到聚类的簇数.  相似文献   

18.
在云计算环境下,对高级持续威胁数据的准确挖掘可以提高云计算网络的安全防御能力.高级持续威胁数据具有极值扰动非线性特征,传统的线性处理方法难以实现对这类数据的准确挖掘.提出一种基于极值扰动非线性特征提取的云计算环境下的高级持续威胁数据挖掘仿真模型,对系统载荷运行情况进行评估,得到云计算下的动态任务调配,分析高级持续威胁数据的极值扰动非线性特性,计算高级持续威胁数据的稳态概率,得到极值扰动非线性特征,对非线性特征进行脉冲响应不变周期标记.实现了高级持续威胁数据极值扰动非线性特征的挖掘,构建数据挖掘模型.仿真实验表明,算法对持续威胁数据的正确检测概率在95%以上,数据挖掘性能优越,在云计算环境下的高级持续威胁数据的检测挖掘等领域应用价值较高,为网络安全系统构建等奠定基础.  相似文献   

19.
针对海量或高维数据进行异常检测实验时,往往检测速度较慢、效率较低。针对此问题,设计了一种基于Spark分布式计算的扩展孤立森林异常检测算法改造实验。实验基于Spark框架,分别在数据抽样、训练、预测等阶段设计并行化改造方法,通过与单核条件下的算法对比,验证了并行化方法在保证准确性的前提下执行效率得到大大提高。此实验对加深学生对大数据分布式并行处理知识的理解,引导其对海量数据挖掘相关技术的学习兴趣具有积极作用。  相似文献   

20.
属性约简是粗糙集理论研究的关键问题之-.为了解决传统分明矩阵属性约简算法在处理高维数据时占用大量的存储空间、效率低的问题,根据决策表信息系统的分明矩阵及序贯思想,提出了序贯属性约简算法,并将其应用于发动机故障诊断系统中,对诊断特征参数表进行约简处理,以减少数据维数,提高诊断效率.该算法避免了大量的逻辑运算,实现了高维数据的高效属性约简.理论分析和实验结果表明该算法具有更高的运行效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号