首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 484 毫秒
1.
提出了一种基于多属性分类的KNN改进算法,可有效提高传统的欧几里德KNN算法和基于信息熵的KNN改进算法的分类准确度。首先,按照单个属性不同属性值的个数占整个属性包含样本的比例进行属性的分类,分为基于信息熵的KNN算法处理的离散属性和基于传统欧几里德KNN相似度处理的连续属性两类,然后分别对不同属性进行区别处理;其次,将两类不同处理后得到的结果按比例求和作为样本之间的距离;最后,选取与待测样本的距离最小的k个样本判断测试样本的决策属性类别。  相似文献   

2.
针对传统信用评价方法分类精度较低、数据集属性变量间存在相关性等问题,提出基于主成分分析的稀疏贝叶斯学习(PCA-SBL)算法。首先对数据集特征变量进行主成分分析,使降维后的变量无相关性|其次,对主成分分析后的数据进行稀疏贝叶斯分类|最后将 PCA-SBL 分类方法分类精度与传统分类方法精度进行比较。分析发现,在 German Credit Data 和 Australian Credit Data 上,与传统 KNN、朴素贝叶斯、SVM、随机森林、决策树相比,改进的 SBL 算法分类精度平均提高了 5.26%、4.65%、2.11%、2.125%、4.66%,与稀疏贝叶斯学习算法(SBL)相比,平均提高 0.965%,从而证明 PCA-SBL 算法具有更高的分类效果。  相似文献   

3.
传统图像特征提取具有较高维度缺陷,造成算法分类效率低、复杂度高、分类速度慢、计算开销大等问题。为此提出AAM算法,定位关键点提取人脸表情几何特征。将朴素贝叶斯分类器结合特征属性重要度调节高斯核函数,使用K近邻算法实现分类决策,提出一种WNBC-KNN分类方法,从降低数据维度和分类算法两方面优化人脸表情分类。在CK+数据和JAFFE数据集上实验,识别率分别达到90%和86%。与传统的朴素贝叶斯算法比较,改进后的算法识别率分别提高6%和30%。  相似文献   

4.
为了改善传统ID3算法在分类属性选择上存在多值偏向性的不足,提出基于PCA的决策树优化算法。在普通基于PCA 的决策树改进算法中,存在数据经降维处理后代表性不强的问题,导致算法需经过多次数据运行后,准确率才能小幅提升。在ID3算法基础上,在分类前两次提取属性特征值,并计算了需要分类的数据量,也即对原始数据进行最重要的属性选择。在子树建立之后,再进行数据的降维合并选择。采用UCI数据库中的3个数据集对改进算法进行验证,结果表明改进算法的平均准确率达到94.6%,相比传统ID3算法与普通PCA决策树优化算法分别提升了1.6%和0.6%。因此,基于PCA的决策树算法能在一定程度上提升结果准确率,具备一定的应用价值。  相似文献   

5.
电类实验教学过程中人工评判学生所测数据工作烦琐,影响了教学质量和效率。该文提出了改进的K近邻(K-nearest neighbors,KNN)分类算法,即基于均值漂移、安全间隔和核主成分分析(KPCA)的M-KPCA-KNN(KNN based on margin and KPCA)算法,以判断学生测量数据正确与否和错误原因。首先利用KPCA对高维实验数据进行降维,然后利用均值漂移向量找到不同类别数据的最密集位置,并在不同类别数据的边界设置安全间隔,最后,将与待测样本距离最近的k个数据设置权重,计算每个类别的权重和,权重和最大的类别为待测样本的类别。与现有的KNN算法相比,M-KPCA-KNN算法不仅提高了分类正确率,而且降低了时间复杂度。  相似文献   

6.
KNN算法是文本分类技术中比较常用的算法。但是,当训练集容量较大时,KNN算法分类的效率大大降低。在对中文短信文本的分类时,结合中文短信文本的特点,给出了先由LAS算法进行降维,然后利用KNN算法进行分类的算法。实验结果表明,该算法提高了中文短信文本的分类质量和分类速度。  相似文献   

7.
现有的增量聚类算法虽然解决了数据增量和类簇重叠问题,但在距离度量时没有考虑属性重要度不同,且普遍拥有较高的时间复杂度。针对以上问题,提出一种基于属性重要度的加权三支决策增量软聚类算法(W-TIOC-TWD算法),将属性重要度考虑到距离度量中,弥补了现有算法在聚类过程中将所有属性的重要程度视为相等的不足。该算法还引入离群点概念,降低了算法的时间复杂度。基于人工数据集和UCI数据集的实验结果表明,W-TIOC-TWD算法的聚类准确率优于比较算法。  相似文献   

8.
线性判别分析(Linear Discriminant Analysis,LDA)是用于降维和分类的方法,然而在遇到小样本问题时,由于全局散布矩阵是奇异的,所以传统的LDA方法是不适用的。为了解决LDA的这种缺点,提出了基于最小二乘线性判别分析(Least Squares Linear Discriminant Analysis,LS-LDA)的正则化算法,在LS-LDA中分别加入关于加权矩阵的L1范数、L2范数和弹性网络的惩罚项、来解决小样本问题,使模型具有鲁棒性和稀疏性。在对回归分析、正则化方法和LS-LDA相关技术进行深入分析的基础上,构建正则化最小二乘线性判别分析框架算法,实现数据降维。结合标准文本数据集进行实验,采用KNN(K-Nearest-Neighbor)分类器进行文本分类。实验结果表明,正则化的LS-LDA具有很好的分类性能,其中以加入了弹性网络惩罚项的LS-LDA最优。  相似文献   

9.
使用主成分分析的方法对数据集进行降维,将滑动窗口引入到贝叶斯网络分类算法中,从而得到改进的贝叶斯网络分类算法。实验证明,改进的算法能够有效地降低分类数据的维数,同时该算法建立的入侵检测模型能够更好地检测出已知的入侵攻击类型。  相似文献   

10.
提出了一种基于投影寻踪改进KNN中文文本分类方法,与现有的中文文本分类算法相比,该方法具有较高的计算效率。给出了具体实现过程并将其用于文本分类中,实验证明了该算法用于文本分类的有效性及其高效率。  相似文献   

11.
研究了基于样式相似性的子空间聚类问题,使用样式相似性作为相似性度量.与在所有维或者子维集上聚集距离相近的对象的传统聚类方法不同的是,样式相似性寻找的是这样一种有趣的样式:对象在子维上呈现出相同起伏的一致变化.提出了一种挖掘基于样式相似性的最大子空间聚类的方法EMaPle.一般情况下数据集属性数目远小于对象数目,因此仅在属性计数空间查找簇,然后运用一些修剪策略.该方法能够找到同时满足一致性约束、大小约束和被MaPle忽视了的符号约束的聚类.在合成和实际数据集上的实验结果表明该算法优于原来的MaPle算法.  相似文献   

12.
应用K-最邻近方法数据挖掘技术,研究数据挖掘技术在就业预测中的应用。同时,针对传统的K-最邻近方法的几个不足之处提出了相应的改进办法,主要包括特征属性的加权处理及K值选择问题的解决。最后,通过实验结果对传统的KNN算法与改进的KNN算法进行比较,以验证改进的KNN算法的有效性。  相似文献   

13.
针对传统的入侵检测方法对于实时性网络检测效率低的问题,引入条件熵对高维数据集进行属性约简,但是由此引起了漏报率过高的问题,因而必须引入遗传算法以进化出最优种群。将条件熵和改进遗传算法相结合,以提高入侵检测的效率和降低漏报率,并将改进遗传算法和标准遗传算法进行了比较,结果表明,将改进后的遗传算法用于入侵检测中具有较高的检测率。  相似文献   

14.
《宜宾学院学报》2015,(12):32-35
针对在传统的粗糙集理论相对属性约简算法中因需计算可区别矩阵和正区域而导致的约简效率低下这一问题,提出一种改进的启发式最优相对属性约简算法加以解决.通过引入属性集的相对分类能力的定义给出相对属性约简的判定条件,在此基础上导出的改进相对属性约简算法既能保证约简过后的条件属性是最优的,又能提高约简效率.实际算例结果以及对比实验体现了该算法的高效性.  相似文献   

15.
针对传统的特征选择方法在非平衡数据集中分类效果不理想的问题,提出了一种适合非平衡数据分类的改进特征选择方法.该方法将集中度和分散度相结合,同时考虑到在文本长短不一时词频对文本分类的作用,得到一种新的词频归一化方法,实现了对传统特征提取方法的改进.另一方面,将三支决策思想引入到朴素贝叶斯算法,得到了NB-三支决策分类算法,并将该算法应用到非平衡数据集的分类.通过两组实验对比结果表明:改进特征选择方法较CHI和IG方法,处理非平衡度高的数据集分类效果较好;选取相同的特征选择方法和数据集,NB-三支分类器比NB-分类器的分类效果好.选用本文提出的改进特征选择方法和NB-三支分类器,在处理非平衡度高且文本长短不一的数据集时,分类效果有一定提升.  相似文献   

16.
为解决传统协同过滤推荐算法数据稀疏、可扩展性差等问题,采用改进预测评分矩阵的协同过滤算法。首先使用基于线性回归分析的加权Slope One算法,在传统Slope One算法中加入可信度,提高共同评分基数;然后采用网上标准数据集movielens作为测试数据,结合协同过滤算法进行top-N推荐。实验结果表明,使用改进预测评分矩阵的协同过滤算法的MEA较小,在近邻数大于25时达到0.74,表明该算法改善了传统协同过滤算法数据稀疏、扩展性差问题,降低了推荐误差,提高了推荐系统准确度。  相似文献   

17.
中文专利文献自动分类   总被引:1,自引:0,他引:1  
采用KNN算法实现了一种中文专利文献自动分类系统。针对专利文献数据规模过大,分类效率低下的问题,采用修剪样本技术删除冗余样本,提高了分类器的效率。为解决修剪样本导致干扰文献积累对KNN分类性能下降的影响,系统使用信息增益对专利文献进行特征词选择,削弱了干扰文献对KNN分类的作用。实验证明,采用修剪样本技术和基于信息增益的特征词选择能有效缩小训练集规模,提高KNN分类准确率。  相似文献   

18.
针对基于项目的协同过滤推荐算法(Item-CF)在处理高维项目评分数据时出现计算效率急剧下降的不足,提出一种将改进的多探寻局部敏感哈希算法(MPLSH)和Item-CF相结合的推荐算法。改进的MPLSH通过将待搜索哈希桶的探寻方式由原始的哈希值差异导向替换为由距离远近导向,从而减少MPLSH需要探寻哈希桶的个数,缩小了Item-CF中相似项目集合的查找范围。并利用MPLSH本身具有的高效数据降维特性,提高Item-CF在高维项目评分数据中寻找相似项目集合的速度,从而有效改善Item-CF在处理高维项目评分数据时计算效率下降的问题。通过在MovieLens电影评分数据集上进行实验和算法比较,验证了该算法的有效性。  相似文献   

19.
为了提高KNN检索策略的检索效率和检索结果的质量,提出一种改进的KNN检索策略。在引入图书馆领域本体和概念语义相似度度量技术的前提下,利用句法结构筛选不合理的案例以降低计算规模,从而提高案例的检索质量和效率,利用改进的微粒群算法优化概念语义相似度度量技术中的组合参数以提高KNN检索的结果质量。实验数据采用福州晓锋科技信息咨询有限公司提供的图书馆参考咨询测试数据。实验结果表明,相比于传统KNN和基于传统PSO的改进KNN方案有效地提高了案例匹配结果的查全率和查准率。  相似文献   

20.
针对古漆器漆膜数据类间不平衡、样本规模小,以及传统机器学习算法分类效果较差的问题,提出一种改进SMOTE的过采样方法改变漆器漆膜数据样本分布,使其达到平衡。该方法通过比较各类样本间的欧式距离,删除了人工样本中的噪声数据,然后运用集成学习中的随机森林算法进行分类,提高了少数类的分类准确率。UCI数据集上的实验结果表明,改进的过采样方法性能更优,评价指标F1-score与AUC值分别得到2%、5%以上的提升。结合改进的过采样方法与机器学习算法进行对比实验,结果证明,随机森林算法精度更高,在对古漆器年代的判别中,随机森林算法的F1-score与AUC值高达87.76%、89.34%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号