共查询到17条相似文献,搜索用时 203 毫秒
1.
2.
贝叶斯文本分类方法研究 总被引:1,自引:0,他引:1
朴素贝叶斯分类器是当前流行的一种文本分类算法 ,它的简易性使其适合于处理属性个数较多的分类问题 ;TAN (TreeAugmentedNaiveBayes)综合了朴素贝叶斯的简易性以及贝叶斯网表示依赖关系的能力 ,使其能容纳属性间存在的某种依赖关系。通过实验比较朴素贝叶斯和TAN ,可以发现TAN方法具有较好的分类性能。 相似文献
3.
朴素贝叶斯理论是一种典型机器学习技术,能够应用于文本分类中。运用朴素贝叶斯理论阐述了贝叶斯分类器的样本训练和分类计算的过程,构造了一个文本分类器。试验表明,朴素贝叶斯理论在文本分类中有较好的分类效果。 相似文献
4.
高胜利 《廊坊师范学院学报(自然科学版)》2012,12(3):32-33,36
通过对Web数据的特点进行详细的分析,在基于传统的贝叶斯聚类算法基础上,采用网页标记形式来有效地弥补朴素贝叶斯算法的不足,并将改进的方法应用在文本分类中,是一种很好的改进思路。最后实验结果也表明,此方法能够有效地对文本进行分类。 相似文献
5.
本文提出了一种基于主题采集的Web文档自动分类算法,该算法对朴素贝叶斯分类模型进行了改进。利用该算法,我们实现了一个基于主题信息采集的网页分类系统。文中着重对该系统的页面解析、中文分词和文本分类模块进行了论述,并对改进后的贝叶斯分类方法进行了评估。实验结果表明,该算法对网页分类有较高的准确性。 相似文献
6.
7.
《实验室研究与探索》2016,(11):137-140
垃圾短信过滤是文本分类的一种,将用户收到的短信分为正常短信和垃圾短信,从而实现对垃圾短信的屏蔽。在朴素贝叶斯分类算法的基础上进行改进,针对短信内容较短包含信息不足的特点,引入同义词集对短信中特征词进行扩展,降低同义特征词分散给分类带来的负面影响。同时针对垃圾短信自身包含的特殊信息,提出模式概念,采用模式概念替换具有相同模式的特征词,使垃圾短信的特征更加集中,增强分类算法对垃圾短信的鉴别能力,最后通过实验对朴素贝叶斯算法以及改进后算法的分类性能进行了分析,验证了改进后算法的有效性。 相似文献
8.
9.
朴素贝叶斯分类器是分类算法集合中基于贝叶斯理论的一种算法,为了对海量的视频进行分类,提出了一种基于朴素贝叶斯分类器的视频分类方法。首先,对视频进行特征提取,提取纹理、颜色以及亮度三种反映其类别的特征。在提取到视频的颜色、亮度以及纹理特征之后,然后进行基于朴素贝叶斯分类器的视频分类。对于输入的几种特征,采用极大似然估计,直至完成最终的分类。实验结果表明,提出的视频分类方法取得了较为准确的分类结果,对篮球、足球、斯诺克等5个运动项目均取得了90%以上的分类准确性。 相似文献
10.
朴素贝叶斯文本分类模型是一种简单而高效的文本分类模型,但是它的独立性假设属性使其无法表示现实世界属性之间的依赖关系,从而影响它的分类性能。这里提出一种改进的基于贝叶斯定理的文本分类模型——“树桩网络(Stump Network)”,并将该方法与朴素贝叶斯文本分类器和TAN(Tree Augmented Naive Bayes)文本分类器进行实验比较,结果表明,在大多数数据集上该文本分类方法具有较高的分类正确率。 相似文献
11.
传统图像特征提取具有较高维度缺陷,造成算法分类效率低、复杂度高、分类速度慢、计算开销大等问题。为此提出AAM算法,定位关键点提取人脸表情几何特征。将朴素贝叶斯分类器结合特征属性重要度调节高斯核函数,使用K近邻算法实现分类决策,提出一种WNBC-KNN分类方法,从降低数据维度和分类算法两方面优化人脸表情分类。在CK+数据和JAFFE数据集上实验,识别率分别达到90%和86%。与传统的朴素贝叶斯算法比较,改进后的算法识别率分别提高6%和30%。 相似文献
12.
针对传统信用评价方法分类精度较低、数据集属性变量间存在相关性等问题,提出基于主成分分析的稀疏贝叶斯学习(PCA-SBL)算法。首先对数据集特征变量进行主成分分析,使降维后的变量无相关性|其次,对主成分分析后的数据进行稀疏贝叶斯分类|最后将 PCA-SBL 分类方法分类精度与传统分类方法精度进行比较。分析发现,在 German Credit Data 和 Australian Credit Data 上,与传统 KNN、朴素贝叶斯、SVM、随机森林、决策树相比,改进的 SBL 算法分类精度平均提高了 5.26%、4.65%、2.11%、2.125%、4.66%,与稀疏贝叶斯学习算法(SBL)相比,平均提高 0.965%,从而证明 PCA-SBL 算法具有更高的分类效果。 相似文献
13.
14.
针对古漆器漆膜数据类间不平衡、样本规模小,以及传统机器学习算法分类效果较差的问题,提出一种改进SMOTE的过采样方法改变漆器漆膜数据样本分布,使其达到平衡。该方法通过比较各类样本间的欧式距离,删除了人工样本中的噪声数据,然后运用集成学习中的随机森林算法进行分类,提高了少数类的分类准确率。UCI数据集上的实验结果表明,改进的过采样方法性能更优,评价指标F1-score与AUC值分别得到2%、5%以上的提升。结合改进的过采样方法与机器学习算法进行对比实验,结果证明,随机森林算法精度更高,在对古漆器年代的判别中,随机森林算法的F1-score与AUC值高达87.76%、89.34%。 相似文献
15.
为了实现教育领域的“个性化”,无论是自由组卷的个性化,还是试题推荐的个性化,都首先需要确定试题难易度。研究目标为寻找新的方法解决基于试题难易度的分类问题,提高分类准确率。以高中数学为例,采用2018年多套高考数学试题作为实验数据,对原始数据各个特征进行相关性分析,剔除影响较小的特征,再采用随机森林算法探索试题难易度分类问题,对参数进行改进优化,并与其它分类方法进行对比。实验结果证明,采用随机森林的高中数学试题分类准确率高达90%,而其它3种分类算法准确率分别为72%、74%、74%。因此得出结论,随机森林算法在高中数学试题难易度分类上有较好表现,能够大幅提高分类准确率。 相似文献
16.
在迅速增加的海量数据中,文本形式的数据占很大比重。文本分类作为最常见的文本挖掘技术,可在大量杂乱的文本数据中发现有价值的信息,具有重要意义。文本分类面临的首要问题是如何在确保分类准确率的同时缩短分类时间。提出使用分类模型FastText学习单词特征以解决该问题,同时在数据集上使用停用词处理方法降低噪声数据对分类模型的影响。实验结果表明,使用FastText文本分类模型在数据集上准确率达到96.11%,比传统模型提高近4%,且模型处理每条文本的平均时间为1.5ms,缩短了约1/3。 相似文献
17.
人工智能算法繁多,但经得起实践考验的经典算法有限,常见的有朴素贝叶斯、决策树、逻辑回归、支持向量机、深度学习、强化学习、遗传算法、蚁群算法、元学习等。依据人工智能算法理论基础知识,如概率统计、集合论、空间几何、图论、矩阵论等加以分类,并对相应经典人工智能算法概念和主要应用领域进行概述,去除结构细化和公式展开所带来的复杂感,揭开人工智能的神秘面纱,让算法整体轮廓得以更清晰地呈现。 相似文献