首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 562 毫秒
1.
本文提出了一种基于主题采集的Web文档自动分类算法,该算法对朴素贝叶斯分类模型进行了改进。利用该算法,我们实现了一个基于主题信息采集的网页分类系统。文中着重对该系统的页面解析、中文分词和文本分类模块进行了论述,并对改进后的贝叶斯分类方法进行了评估。实验结果表明,该算法对网页分类有较高的准确性。  相似文献   

2.
曾果 《铜仁学院学报》2008,10(5):118-119
本文通过时K近邻算法进行研究,在其基础上提出了一种基于K近邻的邮件过滤模型.该模型通过利用已知垃圾邮件的分类结果,应用K近邻方法对未知邮件样本进行精确匹配,以排除合法邮件的误判结果,同时,结合用户对所接收邮件的处理,将系统不能正确划分的新垃圾邮件加入训练数据中,以提高类似于该邮件的后续垃圾邮件的处理效率。  相似文献   

3.
随着互联网中网页数量的激增,网页自动分类已经成为互联网技术中亟待解决的问题。提出一种领域向量模型的设计与构建方法,设计并实现一种针对新闻网页的基于领域向量模型的网页分类TSC(Topic Sensitive Classify)算法,从新的角度解决网页自动分类问题。首先,对大量的新闻网页URL进行分析,提取新闻网页的URL特征;然后,设计一个领域向量模型,对特定领域的新闻网页内容特征进行提取;最后,结合新闻网页URL特征和内容特征对新闻网页进行自动分类。实验结果表明,TSC算法分类效果比传统SVM和ID3等文本分类算法更优。  相似文献   

4.
介绍了K 最近邻分类算法原理,将该算法应用到实际问题乘式割草机问题,通过实验得到了该乘式割草机问题中最近邻个数k的最佳值。研究了K 最近邻分类算法中最近邻个数k的取值对K 近邻分类算法的影响,实验确定当k大致等于n/k时,其中n是该训练集中事例的数目,K 最近邻算法的分类准确率最高。  相似文献   

5.
文本分类是实现网络资源快速分类的一项关键技术。通过对文本分类、网络教学资源、基础教学网络环境进行分析,针对网络教学资源的特点,提出了一个Rocchio算法的网页自动分类模型,并在基础教学网络环境下进行了仿真实验。实验结果表明,该模型能获得较好的分类效果,适合于基础教学资源的分类。  相似文献   

6.
提出基于图的半监督学习算法,即类别传播算,结合K均值算法改进,用于网页分类。该K均值类别传播方法使用欧式距离的建立带权∈NN图。在这个图中,图节点表示已标记或未标记的网页,边上的权重表示节点的相似度,已标记节点的类别沿着边向邻居节点传播,从而将网页分类问题形式化为类别在图上的传播。结合K均值方法,提高了计算速度以及图方法的归纳能力,经UCI数据集测试,结果表明,此算法比类别传播算法有更好的性能,能够有效地用于半监督网页分类。  相似文献   

7.
针对Retinex去雾后图片模糊、细节不明显现象,该文提出基于多尺度细节优化的MSRCR图像去雾算法。该算法首先采用MSRCR对图片进行整体去雾操作,在MSRCR算法处理图像像素分类过程中,为降低像素分类时间,该文采用K近邻算法(K nearest neighbor,KNN)对图片像素进行快速分类;然后采用双边滤波算法对处理后的图片中的噪声和边缘损失进行处理;最后采用MsDB算法对图片细节进行优化。实验结果表明,该文算法相较传统算法而言,在合成雾天图像处理后图片的峰值信噪比(peaksignaltonoise ratio,PSNR)和结构相似性(structural similarity,SSIM)平均分别提升22.03%和21.58%;较自然雾天处理后图片的平均梯度、信息熵、Vollaths值平均分别提升127.62%、6.96%、227.61%。  相似文献   

8.
通过对文本分类的相关技术进行深入研究 ,提出了一种基于VSM的中文网页自动分类模型的构造方法  相似文献   

9.
给出了一个网页自动分类系统的设计,讨论了预处理、批量训练、特征选择等模块的设计过程。本系统采用空间向量模型作为分类模型,在分类开始前对网页信息进行了预处理。  相似文献   

10.
使用一种模仿人类形象思维的图像特征提取方法,把图像映射为高维空间的一个点,并以此作为特征向量.计算高维特征空间中的点之间的距离,并在此基础上,使用K近邻算法进行图像分类.实验表明,与使用其他方法的特征提取下的K近邻算法相比,该方法具有优越性.  相似文献   

11.
传统的支持向量机分类算法在优化过程中对所有支持向量都进行优化,增加了计算量,降低了训练效率.针对上述缺点,在分析样本模糊隶属关系的基础上,采用改进的K近邻算法为已知样本分配隶属度,根据训练样本的隶属关系,剔除非支持向量,减少训练样本,并将其用于中文网页的分类中,得到了较好的分类效果.仿真实验结果表明,改进后的方法不仅相对简单,而且在保证分类器性能的情况下,能有效地减少支持向量机的训练样本数,从而提高支持向量机的训练和测试速度.  相似文献   

12.
1 Introduction The 5-hydroxytryptamine type 3 (5-HT3) receptorantagonists[1-2]are currently used in the treatment ofchemotherapy and radiotherapy induced emesis . Thecompounds are based onthe parent structure showninFig.1 ,the aromatic systems include mono- and bicy-clic rings ,with or without heteroatoms ,and with vari-ous substitution patterns .This range of structural vari-ation makes it difficult to treat the analysis of thesecompounds .Fig .1 Parent structure of 5-HT3antagonists With t…  相似文献   

13.
应用K-最邻近方法数据挖掘技术,研究数据挖掘技术在就业预测中的应用。同时,针对传统的K-最邻近方法的几个不足之处提出了相应的改进办法,主要包括特征属性的加权处理及K值选择问题的解决。最后,通过实验结果对传统的KNN算法与改进的KNN算法进行比较,以验证改进的KNN算法的有效性。  相似文献   

14.
对线性回归分类算法进行了改进。考虑了线性回归分类算法中没有考虑的类间信息,通过选择类模式的投影方向判别不同类的模式,不同类的模式互相远离,相同类的模式尽可能靠近来估计投影矩阵;再利用投影矩阵将训练图像及测试图像投影到各类的特征子空间;最后,计算出测试图像与训练图像间的距离,利用K-近邻分类器完成人脸的识别。在FERET人脸数据库上进行实验验证。实验结果表明,相比其他回归分类算法,本算法取得了更好的识别效果。  相似文献   

15.
In this work, support vector classification (SVC) algorithm was used to build structure-activity relationship (SAR) model of the 5-hydroxytryptamine type 3 (5-HT3 ) receptor antagonists with 26 compounds. In a benchmark test, SVC was compared with several techniques of machine learning currently used in the field. The prediction performance of the model was discussed on the basis of the leave-one-out cross-validation. The results show that the accuracy of prediction of SVC model was higher than those of back propagation artificial neural network (BP ANN), K-nearest neighbor (KNN) and Fisher methods.  相似文献   

16.
为了提高线性回归分类(LRC)算法的鲁棒性,提出了一种基于Fisher准则的线性判别回归分类算法。利用Fisher准则将类间与类内重建误差的比值最大化,找到线性回归分类的最优投影矩阵;再将训练图像及测试图像投影到各类的特征子空间;求得各训练图像与测试图像间的欧氏距离,最后用K-近邻分类器完成人脸识别。在AR人脸数据库上的实验结果表明,相比其他回归分类算法,算法取得了更好的识别效果。  相似文献   

17.
为了对现有小型汽车号牌识别系统进行优化,改善车牌字符识别系统性能,借助 OpenCV 图像处理开源库,在车牌图像预处理阶段采用均值滤波方法提高图像质量,采用 Sobel 边缘检测算子对图像边缘进行提取,利用交替的膨胀、腐蚀操作结合车牌长宽比实现车牌轮廓定位,并根据列像素值对车牌字符进行切割,最后采用改进的 K 近邻算法对分割后的单个车牌字符进行识别。实验结果表明,基于改进 K 近邻算法的车牌识别系统处理时间为 2.08s,识别正确率达 91.3%。与传统的 K 近邻算法相比有着更高的识别率,与神经网络法相比,有着更快的识别速度。  相似文献   

18.
介绍了网络监控系统的概念,并根据实践需要提出了一种适用于网络监控系统的网页分类技术。该网页分类技术是基于网站本身所具有的结构性,并通过URL充分表现这一特点提出来的。与传统的基于数据挖掘技术的网页分类技术有本质区别。该技术着重于实用性,实现算法只需要少量的计算机资源,是适合网络监控系统的一种网页分类技术。  相似文献   

19.
从使用搜索引擎的角度,对于搜索引擎返回的结果,用户只关心那些包含信息的内容部分。以此为需要,本文研究了网页中信息部分识别技术,对于当今存在的各种网页中信息部分识别技术进行优缺点对比,并提出新的算法。针对网页中内容的特点,第一步将网页中的内容划分为块,第二步从划分出来的块中识别出内容。依据网页元素中的各种HTML特征和实际经验中不断调整规则和变量值,完成了对信息部分的识别,最后,通过实验证明本文提出的算法具有良好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号