🧠 核心技術平臺 / 框架運營中成立 2023-12

SEA-LION

隸屬

AI Singapore

主管部委

總理公署 / SNDGO（通過 AISG）

規模 / 指標

11 種東南亞語言；最大版本 70B 引數；HuggingFace 下載量百萬級

官網

aisingapore.org/aiproducts/sea-lion

資訊更新

2026-05-02

SEA-LION（Southeast Asian Languages In One Network）是 AI Singapore 自 2023 年起開發的開源大語言模型家族，**專門為東南亞 11 種語言（含馬來語、泰米爾語、緬甸語、高棉語等小語種）做語義保真**。它不和 GPT/Claude/Gemini 比通用能力，而是佔住「西方大廠沒動力做、東南亞本地又沒算力做」的空白帶。截至 2026，SEA-LION 已迭代到 v3，最大版本 70B 引數，是全球**第一個真正面向東南亞的開源大模型基座**。

📖 是什麼

SEA-LION 是一個開源大語言模型家族，不是單一模型。它包含多個尺寸（3B、7B/8B、70B）、多個底座（早期自研，v3 起基於 Llama 3 和 Gemma 做繼續訓練）、多種用途（基礎模型、Instruct 微調、RAG 適配版）。

技術棧層面：

訓練資料：以東南亞 11 種官方語言為核心（英語、中文、馬來語、印尼語、泰語、越南語、菲律賓語、泰米爾語、緬甸語、高棉語、寮國語），訓練語料約 1 萬億 token，其中東南亞語言佔比遠高於通用大模型
基座選擇：v1 自研架構 → v2 基於 Llama 2 → v3 基於 Llama 3 / Gemma 做繼續預訓練 + 指令微調
算力：依賴新加坡國家超算中心（NSCC）與 Google Cloud / AWS 的贊助算力
開源協議：MIT / Apache 商業友好協議，允許企業直接商用
配套工具：SEA-HELM（評估基準）、SEA-Guard（安全防護）共同構成完整工具鏈

模型可以在 HuggingFace 上直接下載，也可以通過 sea-lion.ai 的官方 API 呼叫。它是少數幾個由國家級機構出品、卻完全開源、且明確鼓勵商業使用的大模型。

🤖 與 AI 的關係

SEA-LION 在 LLM 生態裡有一個非常清晰的位置：「東南亞語言 SOTA 基座」。

它解決的核心技術問題是——通用大模型在東南亞小語種上的表現塌陷。比如 GPT-4 在英語/中文上能打 95 分，但在緬甸語、高棉語、寮國語上經常掉到 30-40 分（在 SEA-HELM 這套基準上能復現）。這背後的根因是訓練資料：通用大模型的訓練語料裡東南亞語言佔比通常不到 1%。

SEA-LION 的解法是繼續預訓練（continued pre-training）：

拿 Llama 3 / Gemma 這種已經具備通用能力的強基座
用大量東南亞語言語料做繼續訓練，恢復對小語種的語義保真
同時不損傷太多英語能力（這是技術難點）

這條路走通後，SEA-LION 在 SEA-HELM 上的東南亞語言任務超過了同尺寸的 Llama 3、Gemma、Qwen——這是它最有說服力的硬資料。

更宏觀看，SEA-LION 也是「開源大模型的區域化適配」這條路徑的一個重要案例。它證明了：不是每個國家都需要自己訓 GPT-4，但每個語言區都可能需要自己的繼續訓練版本——這套思路後來被印尼、馬來西亞、越南等都開始模仿。

🇸🇬 與新加坡的關係

SEA-LION 是新加坡 AI 戰略最具象徵意義的輸出——比任何政策檔案都更能說明「新加坡要做什麼樣的 AI」。

在「七條傳導槓桿」裡，SEA-LION 同時落在 3 條上：

槓桿 5（政府自用）：政府部門基於 SEA-LION 部署本地化 AI 服務，避免把資料交給海外大廠
槓桿 6（外交）：SEA-LION 是新加坡在 ASEAN AI 合作、GPAI、Bletchley/Seoul 峰會上的「技術名片」，證明小國家也能產出全球開源模型
槓桿 3（產業應用）：開源後，本地企業（特別是金融、政府、醫療這種敏感資料場景）可以直接微調使用，不必受制於海外 API

觀點：SEA-LION 的真正價值不在它的技術指標，而在它是一個「主權 AI」的樣板專案。它告訴東南亞：「你們也可以有自己的 LLM 基座，不必只用 OpenAI」。這種敘事價值遠大於它對任何單個 benchmark 的提升。

但 SEA-LION 也有真實瓶頸：

不是從零訓練——它依賴 Llama 3 / Gemma 這些 Meta/Google 的開源底座，這意味著如果未來這些底座轉閉源，整個專案要重做
資源遠小於大廠——AISG 的算力預算是大廠的 1/100，迭代速度天然慢
商業閉環未跑通——目前主要是政府和開源社群在用，企業端付費場景未規模化

這些瓶頸也正好是 NAIS 2.0 時期需要回答的問題——SEA-LION v4/v5 是不是要走自研基座？算力是不是要繫結一個區域級 GPU 叢集？

🗓️ 關鍵里程碑

2023-04

AISG 啟動 SEA-LION 專案

宣佈要做「東南亞自己的開源大模型」，初期目標 11 種語言。
2023-12

SEA-LION v1 釋出

3B 與 7B 兩個尺寸，基於自研架構，開源 MIT 協議。
2024-04

SEA-HELM 評估基準釋出

為東南亞語言模型建立標準化評估，配合 SEA-LION 推動行業基準。
2024-12

SEA-LION v3 釋出（Llama 3 基座）

70B 與 8B 雙版本，效能躋身東南亞語言 SOTA，HuggingFace 下載量進入百萬級。
2025

SEA-Guard 安全防護工具釋出

配套 SEA-LION 的安全評估與防護層，解決東南亞語境下的內容安全問題。
2025

政府部門部署 SEA-LION 落地

多個新加坡政府部門基於 SEA-LION 部署內部 AI 助手與公共服務原型。