首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于语料信息度量的文本分类性能影响研究
引用本文:李湘东,巴志超,黄莉.基于语料信息度量的文本分类性能影响研究[J].情报杂志,2014(9).
作者姓名:李湘东  巴志超  黄莉
作者单位:1. 武汉大学 信息管理学院 武汉 430072; 武汉大学 信息资源研究中心 武汉 430072
2. 武汉大学 信息管理学院 武汉 430072
3. 武汉大学 图书馆 武汉 430072
摘    要:基于不同的分类算法针对特性迥异的语料数据进行分类,其分类效果往往不同。通过研究分类算法针对专门语料库与自建语料库分类效果各不相同的根本原因,提出一种提高分类性能的新途径。从不同语料库的自动分类对比入手,定义类别聚类密度、类别复杂度、类别清晰度三个指标对语料库信息进行度量,通过多因素方差分析考察三个指标与分类性能的关系,得出语料的各项指标对不同分类算法分类性能的影响关系,并提出一种基于类别清晰度的交叠类文本分类方法以验证指标的有效性。实验表明:该三个指标都在不同程度上影响着分类算法的分类性能。语料类别的聚类密度越高,复杂度越低,类别清晰度越高,其表现出的分类效果越好。

关 键 词:语料库  自建语料  类别信息  分类算法  分类性能

Study on the Influences of Text Categorization Performance Based on Corpus Information Measurement
Li Xiangdong,Ba Zhichao,Huang Li.Study on the Influences of Text Categorization Performance Based on Corpus Information Measurement[J].Journal of Information,2014(9).
Authors:Li Xiangdong  Ba Zhichao  Huang Li
Abstract:
Keywords:corpus  self-built corpus  category information  categorization algorithm  categorization performance
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号