从ChatGPT到多模态大模型:现状与未来 |
| |
引用本文: | 李耕,王梓烁,何相腾,彭宇新.从ChatGPT到多模态大模型:现状与未来[J].中国科学基金,2023(5):724-734. |
| |
作者姓名: | 李耕 王梓烁 何相腾 彭宇新 |
| |
作者单位: | 1. 北京大学王选计算机研究所;2. 北京大学多媒体信息处理全国重点实验室 |
| |
基金项目: | 国家自然科学基金项目(61925201,62132001,62272013)的资助; |
| |
摘 要: | 2022年底,OpenAI发布的ChatGPT聊天机器人将人工智能对通用自然语言任务的理解与生成能力提升到新的高度,引发各界广泛关注。当前ChatGPT仅支持文本模态的交互,而真实世界的感知则依赖于图像、文本、视频、音频等多个模态的协同处理。如何借鉴人脑的跨模态处理特性,跨越视觉、语言、听觉等不同感官信息实现对真实世界的感知和认知,是提升模型通用感知和交互能力、实现通用人工智能的关键。本文从ChatGPT的核心技术出发,分析ChatGPT在文本单模态限制下所面临的问题,并介绍ChatGPT与多模态分析技术结合的部分代表性工作,最后从多模态预训练、数据—知识双轮驱动等角度对ChatGPT多模态化的未来研究方向进行展望。
|
关 键 词: | ChatGPT 多模态分析 大语言模型 通用人工智能 多模态预训练 |
|
| 点击此处可从《中国科学基金》浏览原始摘要信息 |
| 点击此处可从《中国科学基金》下载免费的PDF全文 |
|