首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于改进KNN的文本分类方法
引用本文:钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学,2005,23(4):550-554.
作者姓名:钱晓东  王正欧
作者单位:天津大学,系统工程研究所,天津,300072
基金项目:国家自然科学基金资助项目 (6 0 2 75 0 2 0 )
摘    要:本文针对VSM (向量空间模型)中KNN (K最近邻算法)在文本处理环境下的不足,根据SOM (自组织映射神经网络)理论、特征选取和模式聚合理论,提出了一种改进的KNN文本分类方法。应用特征选取和模式聚合理论以降低特征空间维数。传统的VSM模型各维相同的权重并不适应于文本处理的环境,本文提出应用SOM神经网络进行VSM模型各维权重的计算。结合两种改进,有效地降低了向量空间的维数,提高了文本分类的精度和速度。

关 键 词:文本分类  特征提取  自组织神经网络  向量空间模型  K最近邻算法  模式聚合
文章编号:1007-7634(2005)04-0550-05
修稿时间:2004年6月8日

Text Categorization Method Based on Improved KNN
QIAN Xiao-dong,WANG Zheng-ou.Text Categorization Method Based on Improved KNN[J].Information Science,2005,23(4):550-554.
Authors:QIAN Xiao-dong  WANG Zheng-ou
Abstract:In view of the inadequacy of K nearest neighborhood (KNN) algorithm in text-processing environment in vector space models,this paper puts forward an improved KNN method of text categorization in accordance with self-organization mapping neutral network theory(SOM),feature selection theory and pattern aggregation theory.This paper employs feature selection theory and pattern aggregation theory to reduce feature space dimension.And because each dimension of VSM models possesses the same weight,which is not suitable for text-processing environment,this paper suggests applying SOM neutral network to calculate the weight of each dimension of VSM models.Combining the two improvements,this paper efficiently reduces the dimensions of vector space and raises accuracy and speed of text categorization.
Keywords:text categorization  feature selection  SOM network  vector space model  KNN  pattern aggregation
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号