首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
崔丽 《科技通报》2013,29(2):45-47
在医疗系统中,人们通常使用决策树对患者的发病类型以及概率进行有效地分类预测.随着信息技术的普及,医疗系统中产生了大量的历史医疗记录,处理和分析这些海量的医疗数据给医疗系统带来了极大地挑战.本文针对海量医疗数据问题,提出了分布式构建决策树算法.该算法分布式逐层构建决策树,可以高效地构建决策树,快速有效地完成医疗系统中的预测工作.该算法是基于现有流行的云计算平台,使用MapReduce分布式框架设计的分布式算法.实验结果表明,该算法具有很好的扩展性和高效性.  相似文献   

2.
研究针对海量数据流的分类方法,构建分类结果评判数学模型,保证分类系统的稳定性。与静态数据相比,数据流具有动态变化性、传输高速性、高维有序性以及规模宏大性,且存在概念漂移的现象,采用传统的分类方法进行数据流分类,很难处理其中大量的不确定性信息,分类的准确率较低、耗费时间长,无法达到理想的分类效果。为此,提出基于改进决策树算法的海量数据流分类方法。针对原始数据中的冗余进行预处理,去除冗余,提高分类效率,采用改进决策树算法,建立海量数据流决策树分类模型,并依据模糊粗糙集理论构建评判数学模型,对分类结果进行评价。实验结果表明,采用改进的分类方法进行海量数据流分类,能够有效的提高分类系统的稳定性与运行效率,保证分类结果的准确性,能够满足实际的应用需求。  相似文献   

3.
将随机森林融合支持向量机(RF-SVM)模型引入个人信用评估问题中,利用随机森林的特征选择算法,对实验样本进行属性特征选择,将得到的结果作为输入变量构建模型,以获得更高的预测精度。通过对大量SVM分类模型研究,发现传统SVM模型中无法有效筛选预测指标。通过对实验样本实证研究,并验证该模型的预测结果可信度,将其与单独的全变量SVM模型结果比对,结果证明,该方法能获得较好的预测效果。  相似文献   

4.
海量高维数据的近邻检索一直是多媒体信息领域的重要研究课题。本文提出一种基于多GPU的并行高维空间距离检索排序算法,通过并行优化空间距离计算及排序过程,并充分利用GPU硬件特性和众多的流处理器单元,算法能实现百万级的高维数据的实时检索。在此基础上,研究并利用多GPU架构,提升并行效率,拓展实时数据查询的数据规模。实验结果表明,本文算法可达到千万级别高维数据的实时精确检索,极大地拓展了高维检索的应用范围。  相似文献   

5.
<正>近年来,二手车交易活跃,交易量连年增长,二手车行业对汽车售价预测研究的需求日益增加。准确的二手车价格评估可以帮助卖家确定最佳出售时间,以获得最佳利润;有助于银行和其他金融机构提前评估贷款人的汽车价格,从而控制贷款额度。然而二手车在市场上的价格并不是一成不变,因此为了有效预测二手车市场价格,并根据车辆类别正确定价,许多学者开始使用机器学习算法建立二手车智能估价系统。Puteri等人使用线性回归模型预测印度尼西亚二手车的价格,并利用线性回归分析研究不同因素对二手车价格的影响。本文收集了超过10万条二手车交易记录,对线性回归和随机森林(Random Forest,RF)两种算法进行了全面比较,并进行了实证分析。数值实验表明,随机森林算法在处理海量高维数据时表现稳定,但是,在处理维度较低的数据时缺乏明显的优势。可见,现有的二手车价格预测方法并不理想,需要寻找一种合理高效、科学准确的方法。  相似文献   

6.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对从高维采样数据中恢复得到低维数据集,通过本文提出的离群数据假设,并结合本文给出的离群聚类方法对所得数据对象投影分量是否是离群数据进行判别。仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。与此同时,该算法具有参数估计简单、参数影响不大等优点,为离群点检测问题的机器学习提供了一条新的途径。  相似文献   

7.
针对桥梁健康监测获取海量数据却无法实时精确地监测评估桥梁结构状态的困难性,本立足数据挖掘算法理论,在Hadoop平台下运用KNN文本分类算法对桥梁结构缩尺模型加速度数据进行分类分析,采用分布式文件系统HDFS对监测数据进行存储和访问,应用Map/Reduce并行计算框架对桥梁各环境参数进行计算,并据此判断监测点属于何种工况,实现了桥梁监测海量数据的存储、访问、分类以及桥梁结构健康状况的判别,通过实验室缩尺模型工程实例验证了理论的有效性。实验结果表明,与传统的串行分类算法相比,基于Hadoop平台的并行分类算法具有较好的扩展性,并取得了基于大数据理论的桥梁监测技术研究的革新。  相似文献   

8.
通过随机森林算法获取变量的重要性并进行排序,确定模型参数,建立分类预测模型。实验表明,依据随机森林算法建立的模型,具有很好的分类及预测能力。  相似文献   

9.
犯罪预测一直是公安部门亟待解决的突出问题。基于随机森林这种模型组合分类器,结合机器学习技术在犯罪预测中的应用现状,提出了一种用于预测犯罪的新的分类方法,并通过模拟实验来展示这种分类方法比一般的随机森林分类会有更高的可信度。创新之处在于提出的这种随机森林分类器的每一棵树都是退化的决策树,并且根据在线学习的结果在下一轮的分类中选择区分度更高的决策树。最终给出一个应用于犯罪预测的较为成功的分类器的思路和模式,得出准确有效的预测结论。  相似文献   

10.
随机森林是一种优秀的分类算法,然而随机森林算法不能有效的判断冗余属性,因此影响了在含有冗余属性的数据集上的分类效果。针对这一问题,本文提出了一种基于局部线性嵌入的随机森林算法。该算法利用局部线性嵌入算法对冗余属性数据集进行降维,然后利用随机森林算法进行分类学习。在UCI标准数据集上的仿真实验说明,本文算法是一种优秀的含冗余属性数据集分类算法。  相似文献   

11.
尝试将数据挖掘算法应用于降水相态判别,将2010-2014年冬季降雪过程中103个样本,抽象成雪(yes),雨(no)的二元分类问题。选取被认为可能对相态变化较为重要的500 h Pa和1000 h Pa厚度差、零度层高度,暖层厚度,云顶温度,925 h Pa温度等11个因子。借助数据挖掘的C5.0决策树算法和随机森林算法,构建模型。采用十折交叉验证评估模型性能,表明两种方法预测结果均较准确,其中随机森林算法表现更优,且对不同数据预测效果都较为稳定。决策树算法所用的因子信息较少,得到的准确率相对较低。随机森林算法可以使每个变量得到充分训练,判断准确率明显提高。  相似文献   

12.
大规模数据环境下用电量预测算法研究   总被引:1,自引:0,他引:1  
提出了在海量数据下的分布式局部线性回归算法,并通过在大规模用电记录数据集上进行详细地实验,证明了该算法在保证预测效果的前提下,能有显著地缩短模型训练时间,并具有很好的可扩展性.  相似文献   

13.
[目的/意义]构建基于机器学习的成本法专利价值评估方法,快速识别海量专利的实际成本,并预测其价值区间,在为专利价值评估提供新研究思路的同时,也为专利转移转化定价提供了参考借鉴。[方法/过程]通过Innography数据库与Incopat数据库下载“新能源汽车”领域多指标专利数据,提取专利成本影响因素与专利价值影响因素,并形成专利数据训练集与专利数据预测集;构建AutoGluon机器学习分类算法,将包含成本数据的Innography专利数据训练集导入模型进行训练,并将训练好的模型对Incopat专利数据预测集进行成本预测;最后使用成本法并结合本研究提出的专利价值指数对预测结果进行计算,估算其价格区间。[结果/结论]通过实证分析与结果验证可知,本研究构建的基于机器学习的成本法专利价值评估方法在预测专利价值区间中具备一定有效性,为促进专利价值评估研究深化及专利转移转化定价实践发展提供了参考。  相似文献   

14.
线性判别分析(LDA)具有很好的分类性能,但是计算复杂度一般较高。为了有效地降低LDA算法的计算复杂度,本文提出了一种基于k-means聚类的快速学习算法。该算法首先根据k-means聚类算法对原始样本进行聚类,计算聚类簇的样本中心作为新训练样本,然后再利用LDA算法进行分类。由于通过聚类算法有效地压缩了训练样本集的规模,因此算法具有更高的效率。在语音识别数据集上的实验充分验证了本文算法具有较好的分类性能,而且效率更高。  相似文献   

15.
随着信息技术的迅猛发展,大型数据库中的数据正在呈几何级数增长,冗余分类技术已经成为信息组织的重要手段。在总结归纳已有的冗余分类算法弊端的基础上,参考决策树算法提出了一种新的基于数据库抽样的海量数据冗余分类算法。算法引入宽度优先扩展思路,并给出了算法的基本思想和具体实现过程,探讨了并行环境下进行计算的优化步骤。在与SPRINT算法的比较实验中,新算法展现了良好的性能和分类效率。  相似文献   

16.
针对银行CRM中的海量客户历史数据问题,本文采用决策树算法和BP神经网络算法,选取部分客户业务数据分别进行分类预测实验,实验结果表明利用上述算法可以较好地解决银行中对客户分类预测的需求。  相似文献   

17.
小差异数据往往具有信息量大、特征差异小的特点,传统的数据分类方法多具有串行性,在处理海量小差异数据时,存在分类效率低、准确率低及可行性差的缺陷,为信息检索、数据管理等实际应用带来了潜在的风险。为此,提出设计一种基于概率统计的小差异数据分类模型。针对初始数据的杂乱性、冗余性和随机性,分别进行数据清洗、数据变换和数据归约等预处理,依据相关原理构建隐马尔科夫数据分类模型,并通过模型参数优化,得到数据特征的最优描述及该数据属于每一类别的最大概率值,从而实现小差异数据的有效分类。实验结果表明,采用改进算法进行小差异数据分类,能够大大提高数据分类的准确性,提升系统运行速率,提高了算法鲁棒性,具有实际的应用价值。  相似文献   

18.
武同宝  袁海燕  黄尊志  陈志伟 《科技通报》2019,35(7):143-146,151
针对传统特征映射方法存在映射时间长、高维数据转换率低等问题,提出基于最小熵的高维电力数据可视化特征映射方法。对高维电力数据进行空间模拟,从数据预处理、转换、离散化分析和特征分类方面入手,完成对高维电力数据可视化特征分类。建立电力数据类的散布矩阵,根据矩阵计算高维电力数据的特征相对值和判别值,完成数据特征提取。基于上述特征分类和特征提取结果,利用熵对高维电力数据各类的可分性进行描述,选取出熵最小的数据特征,定义数据的熵并将熵当作数据类别的可分性判据,利用电力数据的总体熵实现高维数据到低维数据的映射。实验结果表明,所提方法的特征数据分类准确度较高,且平均高维数据转换率为78%左右,映射耗时短,远远优于传统方法,验证了所提方法的优越性能。  相似文献   

19.
本文提出了一种基于训练集划分的随机森林算法。该算法首先将多数类划分为多个不相交子集。然后将每个子集与少数类合并,进行决策树的训练。最后根据平均加权策略构建随机森林,并获取最终的分类规则。本文所提方法避免了原始样本信息的损失,而且保持了子分类器的样本平衡。在人工生成数据集上的仿真实验表明本文方法非常有效。  相似文献   

20.
Web信息复杂程度不断加深,多维度、高复杂度的信息越来越多,信息中的错误信息特征在海量复杂数据属性中表述越来越困难,造成信息挖掘耗时过长,挖掘效果不好的问题。为了解决这一问题,提出了一种距离信息模糊信息权值分类的Web错误数据挖掘算法。在Web特征表述过程中,运用距离描述Web数据的错误数据特征,运用模糊信息熵,对错误数据特征进行距离分类,保证数据分类的准确性,最大程度的完成错误数据高效挖掘。实验结果表明,该算法能有效减少错误数据信息在海量信息中的挖掘时间,提高了挖掘的准确性,取得了满意的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号