Show-o

统一多模态理解与生成的单 Transformer 模型

GitHub Stars

1.9k+

论文

ICLR / NeurIPS

核心能力

理解 + 生成

Show-o 是 NUS Show Lab 的多模态基础模型路线：用一个 Transformer 同时处理图像理解和图像生成，而不是把两类能力拆成不同系统。

是什么

Show-o 的目标是统一多模态理解和生成。它把视觉理解、文本条件生成、图像生成等能力放进一个模型框架里，试图减少"理解模型"和"生成模型"之间的割裂。

Show Lab 后续还推进了 Show-o2，把这条路线继续扩展到更强的生成和理解能力。

多模态模型正在从拼接式系统走向统一架构。Show-o 的问题意识很直接：如果一个模型既能看懂图像，也能生成图像，很多交互式设计、编辑、视觉问答和内容生产流程会更自然。

这也是开源多模态研究里的关键方向。

Show-o 把 NUS Show Lab 放在全球多模态开源研究图谱上。对新加坡来说，它是"高校实验室输出前沿模型"的样本，而不是政府项目或企业应用。

未来可以继续追踪 Show Lab 的模型系列、论文接受情况、Hugging Face 模型使用量和是否形成产业工具。