返回产学研开源生态 视觉语言基础模型 经典开源资产

项目档案

LAVIS / BLIP

视觉语言基础模型和一站式库,全球图文 AI 的基石之一

GitHub Stars
11.2k+
代表模型
BLIP / BLIP-2
方向
图文理解
机构
Salesforce AI Research Singapore
分组
国际企业实验室
类别
视觉语言基础模型
状态
经典开源资产
启动
2022-08
语言 / 形态
Python / Jupyter Notebook
协议
BSD-3-Clause
GitHub Stars
11,214
信息更新
2026-05-04

LAVIS / BLIP 是 Salesforce 新加坡研究团队对全球视觉语言 AI 的重要贡献。它们让图文理解、图像描述、视觉问答和多模态预训练进入更可复用的开源形态。

是什么

LAVIS 是 Library for Language-Vision Intelligence 的缩写,是一个统一的视觉语言研究和应用库。BLIP 和 BLIP-2 则是其中最有影响力的模型系列。

开发者可以用它加载预训练模型,做图像描述、视觉问答、图文检索、多模态对齐等任务。

与 AI 的关系

BLIP 系列是多模态 AI 的基础构件之一。今天很多视觉语言模型、数据生成流程和图文对齐研究,都直接或间接受它影响。

它的价值不只是论文引用高,而是形成了可复用代码和模型,降低了后续研究进入门槛。

与新加坡的关系

Salesforce 新加坡实验室证明,国际企业在新加坡设研究团队不只是销售或区域办公室,也能产出全球级基础研究。

这类项目是新加坡 AI 生态很重要但容易被低估的一层:跨国公司实验室把本地人才、全球研究网络和开源影响力连接起来。

关键里程碑

  1. 2022
    BLIP 论文发表于 ICML 2022
  2. 2023
    BLIP-2 论文发表于 ICML 2023

资源入口

更多产学研项目