LAVIS / BLIP

视觉语言基础模型和一站式库，全球图文 AI 的基石之一

GitHub Stars

11.2k+

代表模型

BLIP / BLIP-2

方向

图文理解

LAVIS / BLIP 是 Salesforce 新加坡研究团队对全球视觉语言 AI 的重要贡献。它们让图文理解、图像描述、视觉问答和多模态预训练进入更可复用的开源形态。

是什么

LAVIS 是 Library for Language-Vision Intelligence 的缩写，是一个统一的视觉语言研究和应用库。BLIP 和 BLIP-2 则是其中最有影响力的模型系列。

开发者可以用它加载预训练模型，做图像描述、视觉问答、图文检索、多模态对齐等任务。

BLIP 系列是多模态 AI 的基础构件之一。今天很多视觉语言模型、数据生成流程和图文对齐研究，都直接或间接受它影响。

它的价值不只是论文引用高，而是形成了可复用代码和模型，降低了后续研究进入门槛。

Salesforce 新加坡实验室证明，国际企业在新加坡设研究团队不只是销售或区域办公室，也能产出全球级基础研究。

这类项目是新加坡 AI 生态很重要但容易被低估的一层：跨国公司实验室把本地人才、全球研究网络和开源影响力连接起来。