NExT-GPT

首个任意模态互转大语言模型（文本、图像、视频、音频）

GitHub Stars

3.6k+

论文

ICML 2024

模态

文本 / 图像 / 视频 / 音频

NExT-GPT 是 NUS 在多模态大模型上的代表性项目，目标是让一个系统在文本、图像、视频、音频之间理解和生成。

是什么

NExT-GPT 把大语言模型作为中枢，连接不同模态的编码器和生成器。用户可以输入文本、图片、视频或音频，系统再输出另一种或多种模态。

它的意义在于把多模态从"图文问答"推向更完整的任意模态互转。

多模态是大模型下一阶段的核心方向之一。NExT-GPT 提前探索的是模型编排问题：如何让不同专业模型围绕 LLM 协同，而不是每一种输入输出都重训一个巨型模型。

这种路线对研究很重要，也给应用层提供了可组合的架构参考。

NExT-GPT 说明 NUS 在多模态基础研究上有全球可见成果。它不是新加坡本地应用项目，而是新加坡学术机构参与全球模型范式竞争的样本。

这类项目未来适合继续补充引用、后续模型、产业转化和与 NUS 其他多模态团队的关系。