返回产学研开源生态 任意模态互转模型 研究开源

项目档案

NExT-GPT

首个任意模态互转大语言模型(文本、图像、视频、音频)

GitHub Stars
3.6k+
论文
ICML 2024
模态
文本 / 图像 / 视频 / 音频
机构
NUS NExT++ Research Center
分组
大学与研究机构
类别
任意模态互转模型
状态
研究开源
启动
2023-08
语言 / 形态
Python
协议
BSD-3-Clause
GitHub Stars
3,621
信息更新
2026-05-04

NExT-GPT 是 NUS 在多模态大模型上的代表性项目,目标是让一个系统在文本、图像、视频、音频之间理解和生成。

是什么

NExT-GPT 把大语言模型作为中枢,连接不同模态的编码器和生成器。用户可以输入文本、图片、视频或音频,系统再输出另一种或多种模态。

它的意义在于把多模态从"图文问答"推向更完整的任意模态互转。

与 AI 的关系

多模态是大模型下一阶段的核心方向之一。NExT-GPT 提前探索的是模型编排问题:如何让不同专业模型围绕 LLM 协同,而不是每一种输入输出都重训一个巨型模型。

这种路线对研究很重要,也给应用层提供了可组合的架构参考。

与新加坡的关系

NExT-GPT 说明 NUS 在多模态基础研究上有全球可见成果。它不是新加坡本地应用项目,而是新加坡学术机构参与全球模型范式竞争的样本。

这类项目未来适合继续补充引用、后续模型、产业转化和与 NUS 其他多模态团队的关系。

关键里程碑

  1. 2023-08
    NExT-GPT 仓库发布
  2. 2024
    论文发表于 ICML 2024

资源入口

更多产学研项目