首页 | 本学科首页   官方微博 | 高级检索  
     检索      

文本粗分类数据中噪声的快速修正算法
引用本文:宣照国,党延忠.文本粗分类数据中噪声的快速修正算法[J].情报学报,2009,28(5).
作者姓名:宣照国  党延忠
作者单位:大连理工大学系统工程研究所,大连,116023
基金项目:国家自然科学基金资助项目 
摘    要:训练数据中的噪声数据对文本分类结果的精度会造成不良影响,本文提出了一种对噪声数据进行修正的快速算法.针对以前的算法,每次迭代只对一个文档进行修正,迭代次数与噪声数据数量相当,算法运行效率较低的问题,本文通过分析调整文档所属类别对评价指标的影响,提出依据模块度变化量判断噪声数据,一次迭代过程中可以对多个文档进行修正处理,从而提高算法效率.实验结果表明,本文所提算法能够更快地修正粗分类数据中的噪声,算法复杂度从以前算法的O(Tnm2)降低为O(Tnm).该算法可以用于对大数据量数据进行处理,实用价值更高.

关 键 词:文本分类  集团结构  模块度优化  噪声数据

A Fast Noise Revision Algorithm in Text Categorization
Xuan Zhaoguo,Dang Yanzhong.A Fast Noise Revision Algorithm in Text Categorization[J].Journal of the China Society for Scientific andTechnical Information,2009,28(5).
Authors:Xuan Zhaoguo  Dang Yanzhong
Institution:Institute of Systems Engineering;Dalian University of Technology;Dalian 116023
Abstract:The noisy texts in training data will influence the performance of the categorization system.This paper proposes a fast revision algorithm for revising the noisy texts.The previous algorithm,NNRA,revise only one document at one iteration step. The iteration times equal to the number of noisy texts in document set approximately.This paper aims to improve the efficiency of the algorithm,especially the convergent speed.By analyzing the influence of the modularity changing the categorization of the documents,we...
Keywords:text categorization  community structure  modularity optimization  noisy text  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号