基于集成学习的自动标引方法研究 |
| |
引用本文: | 章成志.基于集成学习的自动标引方法研究[J].中国索引,2009,7(2):16-23. |
| |
作者姓名: | 章成志 |
| |
作者单位: | [1]中国科学技术信息研究所,北京100038 [2]南京理工大学信息管理系,南京210094 |
| |
摘 要: | 目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量。为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引。实验结果表明,基于集成学习方法的自动标引能提高标引结果的查准率和召回率。另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果。
|
关 键 词: | 自动标引 关键词提取 集成学习 |
本文献已被 维普 等数据库收录! |
|