首页 | 本学科首页   官方微博 | 高级检索  
     检索      

改进的信息增益特征选择方法在文本聚类中的应用*
引用本文:陈涛,宋妍,谢阳群.改进的信息增益特征选择方法在文本聚类中的应用*[J].现代图书情报技术,2004,20(12):7-9.
作者姓名:陈涛  宋妍  谢阳群
作者单位:1. 宁波大学管理科学与工程系,浙江,315211
2. 南京大学工商管理系,江苏,210093
基金项目:国家社会科学基金项目部分研究成果 (项目编号 :0 0 BTQ0 15 ),浙江省教育厅高校科研项目,编号为 2 0 0 40 997
摘    要:利用改进的信息增益特征选择的方法,对文本进行了有效的自动聚类。从语料库中抽取了250篇文本,利用向量空间模型和信息增益特征降维方法,构造文本特征向量,并最终利用C-均值方法聚类,聚类结果精度、召回率、F-measure分别达到0.82、0.88、0.83。

关 键 词:信息增益  特征选择  聚类
收稿时间:2004-07-07
修稿时间:2004年7月7日

Application of Improved Information Gain Feature Selection Methodto Text Clustering
Chen Tao,Song Yan,Xie Yangqun.Application of Improved Information Gain Feature Selection Methodto Text Clustering[J].New Technology of Library and Information Service,2004,20(12):7-9.
Authors:Chen Tao  Song Yan  Xie Yangqun
Institution:(Department of Management Science and Engineering, Ningbo, Zhejiang 315211,China) (Department of Business Administration,Nanjing,Jiangsu 210093,China)
Abstract:This paper applies the improved information gain method to the text clustering. Retrieving 250 from the corpus, according to Vector Space Model and the information gain feature selection method,construct the text feature vector;use C-means to automatic clustering, the precision、recall and F-measure are 0.82、0.88、0.83.
Keywords:Information gain Feature selection Clustering
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《现代图书情报技术》浏览原始摘要信息
点击此处可从《现代图书情报技术》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号