项目档案
VideoLLaMA3
前沿视频理解多模态模型
代表模型
2B / 7B
平台
Hugging Face
方向
视频理解
- 机构
- Alibaba DAMO-NLP-SG
- 分组
- 国际企业实验室
- 类别
- 视频理解多模态模型
- 状态
- 模型发布中
- 启动
- 2025
- 语言 / 形态
- Models
- 信息更新
- 2026-05-04
VideoLLaMA3 是 Alibaba DAMO-NLP-SG 的视频理解模型线,重点处理长视频、图像和视觉问答等多模态任务。
是什么
VideoLLaMA3 是发布在 Hugging Face 上的一组多模态模型,常见版本包括 2B 和 7B。它服务的是视频和图像理解:让模型基于视觉内容回答问题、提取信息、理解时序事件。
与视频生成不同,它的重点是"看懂视频"。
与 AI 的关系
视频理解是 AI 应用的关键基础能力。安全巡检、教育内容分析、会议和媒体检索、机器人感知都需要模型处理长时序视觉信息。
VideoLLaMA3 代表的是企业实验室在开源视频理解模型上的快速推进。
与新加坡的关系
DAMO-NLP-SG 是阿里达摩院在新加坡的语言技术实验室。VideoLLaMA3 让这个实验室不只出现在 NLP 语境里,也进入多模态视频模型生态。
这类项目有助于观察新加坡如何承接中资科技公司的全球 AI 研发网络。
关键里程碑
- 2025VideoLLaMA3 模型线发布