项目档案
NExT-GPT
首个任意模态互转大语言模型(文本、图像、视频、音频)
GitHub Stars
3.6k+
论文
ICML 2024
模态
文本 / 图像 / 视频 / 音频
- 机构
- NUS NExT++ Research Center
- 分组
- 大学与研究机构
- 类别
- 任意模态互转模型
- 状态
- 研究开源
- 启动
- 2023-08
- 语言 / 形态
- Python
- 协议
- BSD-3-Clause
- GitHub Stars
- 3,621
- 信息更新
- 2026-05-04
NExT-GPT 是 NUS 在多模态大模型上的代表性项目,目标是让一个系统在文本、图像、视频、音频之间理解和生成。
是什么
NExT-GPT 把大语言模型作为中枢,连接不同模态的编码器和生成器。用户可以输入文本、图片、视频或音频,系统再输出另一种或多种模态。
它的意义在于把多模态从"图文问答"推向更完整的任意模态互转。
与 AI 的关系
多模态是大模型下一阶段的核心方向之一。NExT-GPT 提前探索的是模型编排问题:如何让不同专业模型围绕 LLM 协同,而不是每一种输入输出都重训一个巨型模型。
这种路线对研究很重要,也给应用层提供了可组合的架构参考。
与新加坡的关系
NExT-GPT 说明 NUS 在多模态基础研究上有全球可见成果。它不是新加坡本地应用项目,而是新加坡学术机构参与全球模型范式竞争的样本。
这类项目未来适合继续补充引用、后续模型、产业转化和与 NUS 其他多模态团队的关系。
关键里程碑
- 2023-08NExT-GPT 仓库发布
- 2024论文发表于 ICML 2024