一种基于多级LSTM解码器的细粒度图像描述方法 |
| |
引用本文: | 罗 锋,隋爱娜.一种基于多级LSTM解码器的细粒度图像描述方法[J].教育技术导刊,2019,18(9):58-61. |
| |
作者姓名: | 罗 锋 隋爱娜 |
| |
作者单位: | 1. 中国传媒大学 计算机与网络空间安全学院;2. 智能融媒体教育部重点实验室,北京 100024 |
| |
基金项目: | 中国传媒大学中央高校基本科研业务费专项项目(3132018XNG1804) |
| |
摘 要: | 现有图像描述方法常见训练对象为单一的句子解码器,造成生成的描述内容在长距离依赖上效果不显著,描述细节质量不高,从而不能真实、完整地表征图像全局关系。针对该问题,设计一种基于多层LSTM解码机制的图像描述方法。该方法由多个LSTM解码器组成,其中每一个解码器均基于前一级输出进行工作,从而生成越来越精细的描述内容。在MS-COCO 测试集中,该方法的BLEU-1和CIDEr分别可达到0.753与1.090,明显优于单一解码器结构模型。实验结果表明,生成的模型表现出更精细的图像描述。
|
关 键 词: | 图像描述 长短时记忆网络 解码器 |
收稿时间: | 2019-05-06 |
|
| 点击此处可从《教育技术导刊》浏览原始摘要信息 |
| 点击此处可从《教育技术导刊》下载免费的PDF全文 |
|