文本分类中TF-IDF权重计算方法改进 |
| |
引用本文: | 隗中杰.文本分类中TF-IDF权重计算方法改进[J].教育技术导刊,2018,17(12):39-42. |
| |
作者姓名: | 隗中杰 |
| |
作者单位: | 中国人民公安大学 信息技术与网络安全学院,北京 100038 |
| |
摘 要: | TF-IDF是文本分类中计算特征权重的经典方法,但其本身并未考虑特征词在文档集合中的分布情况,从而导致类别区分度不大。通过计算特征词类内密度与特征词在样本中均匀分布时整体平均密度的比值对IDF函数进行改进。实验结果表明,改进后的TF-IDF考虑了特征词内分布与在整体文档集中的分布,提升了对类别的区分能力,有效改善了文本分类效果。
|
关 键 词: | 文本分类 密度 TF-IDF 特征权重 分布 |
|
| 点击此处可从《教育技术导刊》浏览原始摘要信息 |
| 点击此处可从《教育技术导刊》下载免费的PDF全文 |
|