共查询到20条相似文献,搜索用时 15 毫秒
1.
研究选定了6种特征向量,在120个手工标注的指代样本的基础上采用C5.0决策树方法训练得到一棵用于中文名词短语指代消解的决策树,并对其进行实验测试。采用决策树的if-then规则之前加入四条针对代词指代消解的规则的方法来改进系统。 相似文献
2.
尝试将数据挖掘算法应用于降水相态判别,将2010-2014年冬季降雪过程中103个样本,抽象成雪(yes),雨(no)的二元分类问题。选取被认为可能对相态变化较为重要的500 h Pa和1000 h Pa厚度差、零度层高度,暖层厚度,云顶温度,925 h Pa温度等11个因子。借助数据挖掘的C5.0决策树算法和随机森林算法,构建模型。采用十折交叉验证评估模型性能,表明两种方法预测结果均较准确,其中随机森林算法表现更优,且对不同数据预测效果都较为稳定。决策树算法所用的因子信息较少,得到的准确率相对较低。随机森林算法可以使每个变量得到充分训练,判断准确率明显提高。 相似文献
3.
4.
5.
6.
7.
本文简单介绍了决策树概念及C5.0算法原理,利用数据挖掘方法分析了移动客户的消费行为,搭建了一个基于内容营销目标客户的预测模型,提供了模型的分析方法及实例。 相似文献
8.
在智慧城市建设热潮中,提出一个合理的建设能力评估模型,科学地对智慧城市建设能力进行分类和评估。从智慧城市建设能力的四个主要因素出发,构建智慧城市建设能力指标体系,对智慧城市实例进行ward系统聚类,选取决策树的C4.5算法建立建设能力评估模型,并验证模型的科学性。结果发现政策法规完善率、互联网普及率、RD活动经费占GDP比重是智慧城市建设能力差距最显著的影响因素,根据评估结果提出进行特色智慧城市建设的政策建议。 相似文献
9.
通过结构方程的实证方法,研究了哪些关键变量对我国B2C顾客满意度构成重要影响,以及影响的强度分别有多大。通过非概率抽样和便捷抽样,本文采集了1001个有效样本,运用探索性因子分析和验证性因子分析,将影响顾客满意度的指标分为9个因子。通过结构方程建模,研究发现有7个因子的影响是显著的,其中交易能力对顾客满意度的影响最大,其次是物流配送与支付方式、网站的客户服务。其它对满意度有正向影响的因子依次为安全隐私、商品特征、信息质量、网页设计,而响应时间和网站的易浏览性2个因子对我国B2C顾客满意度的影响不显著。 相似文献
10.
探讨C4. 5决策树、支持向量机分类器在新疆地方性肝包虫CT图像分类中的应用。使用sym4小波变换方法对预处理的图像进行特征提取,运用统计学方法筛选出最优的特征子集,并构建C4. 5决策树分类模型和支持向量机分类模型,进一步对模型的准确性、召回率等进行评估。结果显示,3种CT图像两两分类和综合分类时,C4. 5决策树分类模型的分类精度都明显高于支持向量机分类模型,C4. 5决策树分类模型的分类精度均达到87%以上,分类效果较好。实验结果表明,将C4. 5决策树分类器应用于肝包虫CT图像的分型中,为肝包虫病影像学诊断提供了一定的依据,也为后续新疆地方性肝包虫病计算机辅助诊断系统的研发奠定了基础。 相似文献
11.
12.
对海量数据的处理能力是数据挖掘最关注的问题。决策树作为一种分类器,是数据挖掘中用到的一种基本方法之一。基于C4.5的决策树改进算法,是在一些典型的决策树分类算法的基础上提出的,基本思想是在建树过程中,用属性依赖度替代信息增益率来确定划分条件属性的顺序。该算法借鉴MedGen算法的阈值设定方法,在简化决策树剪枝和优化过程的同时,可优化C4.5算法中使用信息熵率的时间复杂度,避免了使用信息熵带来的不当划分。简述了该改进算法的执行过程,证明了算法的正确性。 相似文献
13.
良好的客户细分管理能够帮助财险公司更好地管理运营成本与收益,更好地实现公司风险控制和利润最大化的要求。文中采用相关分析进行相关数据的处理,运用K-Means聚类分析、决策树C 5.0算法和改进的Apriori算法3种数据挖掘技术对财险客户从风险和贡献2个角度进行了数据挖掘分类分析,得到具备风险、贡献指向性的双维度客户细分特征变量,并根据这些特征变量,建立了客户风险-贡献分类矩阵,对不同类别的客户提出了不同的客户管理对策建议。 相似文献
14.
《科技通报》2016,(9)
目的:探讨C4.5决策树算法结合主成分分析法(PCA)在新疆高发病食管癌X钡剂造影图像分类中的应用。方法:选取新疆高发病食管癌图像200张,其中蕈伞型和溃疡型图像各100张。对图像进行归一化、去噪和空间转换等预处理;对图像进行二尺度小波变换提取图像的低频信息,然后对其进行灰度共生矩阵法提取图像的特征;采用主成分分析(PCA)法对所提取的特征进行筛选;通过构造决策树C4.5算法分类器来验证特征的分类能力。结果:使用决策树C4.5算法分类器,对主成分分析获取的特征及综合特征进行分类。PCA选择的特征分类准确率为95%;使用综合特征分类准确率为80%。结论:综合特征的分类准确率与PCA选择的特征相比较低,表明在进行分类时,冗余特征可能会降低分类准确率;而本研究采用PCA选择后的特征分类准确率较高,表明该算法能有效减少冗余特征,弥补了过高维数的特征向量易引起维数灾难的问题,从而使得分类准确率得到了提高。一定程度上为后续的其它组织器官的特征提取提供了依据。 相似文献
15.
16.
17.
《内蒙古科技与经济》2017,(14)
本文利用四川省1995年~2015年间的税收收入与影响税收的9个影响因素,建立税收收入的BP神经网络预测系统。同时选取2015年数据对各个影响因素进行BP神经网络的影响分析,发现第二、三产业以及进出口总额对四川省税收影响最显著。 相似文献
18.
影响因子、总被引频次与期刊载文量的关系研究 ——以资源、生态、地理方面的8个期刊为例 总被引:1,自引:0,他引:1
文章选取资源、生态、地理三个相近学科的8个期刊,通过分析它们的影响因子、总被引频次与载文量之间的关系发现:在这8个期刊之中,载文量与各刊影响因子的相关程度不一,而与总被引频次有较强相关;三个相近学科之间的影响因子无明显差异;生态学的两个期刊与各地理、资源期刊之间的总被引频次存在极显著差异,这可能与学科不同有一定的关系。 相似文献
19.
20.
针对目前CAN总线异常检测方法无法检测出异常情况等缺点,设计研究了基于决策树的车载CAN总线异常检测技术。构建了决策树CAN总线异常检测模型,详细阐述了决策树模型生成流程以及车载CAN总线报文异常检测流程。另外对CAN总线数据决策树生成算法进行设计说明。最后针对该设计方法进行了实验仿真分析,结果表明其能够相对非常准确的检测定位出异常报文,这为后续的研究奠定了基础。 相似文献