🧠 核心技術 平臺 / 框架 運營中 成立 2023-12

SEA-LION

隸屬
AI Singapore
主管部委
總理公署 / SNDGO(通過 AISG)
規模 / 指標
11 種東南亞語言;最大版本 70B 引數;HuggingFace 下載量百萬級
官網
aisingapore.org/aiproducts/sea-lion
資訊更新
2026-05-02

SEA-LION(Southeast Asian Languages In One Network)是 AI Singapore 自 2023 年起開發的開源大語言模型家族,**專門為東南亞 11 種語言(含馬來語、泰米爾語、緬甸語、高棉語等小語種)做語義保真**。它不和 GPT/Claude/Gemini 比通用能力,而是佔住「西方大廠沒動力做、東南亞本地又沒算力做」的空白帶。截至 2026,SEA-LION 已迭代到 v3,最大版本 70B 引數,是全球**第一個真正面向東南亞的開源大模型基座**。

📖 是什麼

SEA-LION 是一個開源大語言模型家族,不是單一模型。它包含多個尺寸(3B、7B/8B、70B)、多個底座(早期自研,v3 起基於 Llama 3 和 Gemma 做繼續訓練)、多種用途(基礎模型、Instruct 微調、RAG 適配版)。

技術棧層面:

  • 訓練資料:以東南亞 11 種官方語言為核心(英語、中文、馬來語、印尼語、泰語、越南語、菲律賓語、泰米爾語、緬甸語、高棉語、寮國語),訓練語料約 1 萬億 token,其中東南亞語言佔比遠高於通用大模型
  • 基座選擇:v1 自研架構 → v2 基於 Llama 2 → v3 基於 Llama 3 / Gemma 做繼續預訓練 + 指令微調
  • 算力:依賴新加坡國家超算中心(NSCC)與 Google Cloud / AWS 的贊助算力
  • 開源協議:MIT / Apache 商業友好協議,允許企業直接商用
  • 配套工具:SEA-HELM(評估基準)、SEA-Guard(安全防護)共同構成完整工具鏈

模型可以在 HuggingFace 上直接下載,也可以通過 sea-lion.ai 的官方 API 呼叫。它是少數幾個由國家級機構出品、卻完全開源、且明確鼓勵商業使用的大模型。

🤖 與 AI 的關係

SEA-LION 在 LLM 生態裡有一個非常清晰的位置:「東南亞語言 SOTA 基座」

它解決的核心技術問題是——通用大模型在東南亞小語種上的表現塌陷。比如 GPT-4 在英語/中文上能打 95 分,但在緬甸語、高棉語、寮國語上經常掉到 30-40 分(在 SEA-HELM 這套基準上能復現)。這背後的根因是訓練資料:通用大模型的訓練語料裡東南亞語言佔比通常不到 1%。

SEA-LION 的解法是繼續預訓練(continued pre-training)

  • 拿 Llama 3 / Gemma 這種已經具備通用能力的強基座
  • 用大量東南亞語言語料做繼續訓練,恢復對小語種的語義保真
  • 同時不損傷太多英語能力(這是技術難點)

這條路走通後,SEA-LION 在 SEA-HELM 上的東南亞語言任務超過了同尺寸的 Llama 3、Gemma、Qwen——這是它最有說服力的硬資料。

更宏觀看,SEA-LION 也是「開源大模型的區域化適配」這條路徑的一個重要案例。它證明了:不是每個國家都需要自己訓 GPT-4,但每個語言區都可能需要自己的繼續訓練版本——這套思路後來被印尼、馬來西亞、越南等都開始模仿。

🇸🇬 與新加坡的關係

SEA-LION 是新加坡 AI 戰略最具象徵意義的輸出——比任何政策檔案都更能說明「新加坡要做什麼樣的 AI」。

在「七條傳導槓桿」裡,SEA-LION 同時落在 3 條上:

  • 槓桿 5(政府自用):政府部門基於 SEA-LION 部署本地化 AI 服務,避免把資料交給海外大廠
  • 槓桿 6(外交):SEA-LION 是新加坡在 ASEAN AI 合作、GPAI、Bletchley/Seoul 峰會上的「技術名片」,證明小國家也能產出全球開源模型
  • 槓桿 3(產業應用):開源後,本地企業(特別是金融、政府、醫療這種敏感資料場景)可以直接微調使用,不必受制於海外 API

觀點:SEA-LION 的真正價值不在它的技術指標,而在它是一個「主權 AI」的樣板專案。它告訴東南亞:「你們也可以有自己的 LLM 基座,不必只用 OpenAI」。這種敘事價值遠大於它對任何單個 benchmark 的提升。

但 SEA-LION 也有真實瓶頸:

  • 不是從零訓練——它依賴 Llama 3 / Gemma 這些 Meta/Google 的開源底座,這意味著如果未來這些底座轉閉源,整個專案要重做
  • 資源遠小於大廠——AISG 的算力預算是大廠的 1/100,迭代速度天然慢
  • 商業閉環未跑通——目前主要是政府和開源社群在用,企業端付費場景未規模化

這些瓶頸也正好是 NAIS 2.0 時期需要回答的問題——SEA-LION v4/v5 是不是要走自研基座?算力是不是要繫結一個區域級 GPU 叢集?

🗓️ 關鍵里程碑

  1. 2023-04
    AISG 啟動 SEA-LION 專案

    宣佈要做「東南亞自己的開源大模型」,初期目標 11 種語言。

  2. 2023-12
    SEA-LION v1 釋出

    3B 與 7B 兩個尺寸,基於自研架構,開源 MIT 協議。

  3. 2024-04
    SEA-HELM 評估基準釋出

    為東南亞語言模型建立標準化評估,配合 SEA-LION 推動行業基準。

  4. 2024-12
    SEA-LION v3 釋出(Llama 3 基座)

    70B 與 8B 雙版本,效能躋身東南亞語言 SOTA,HuggingFace 下載量進入百萬級。

  5. 2025
    SEA-Guard 安全防護工具釋出

    配套 SEA-LION 的安全評估與防護層,解決東南亞語境下的內容安全問題。

  6. 2025
    政府部門部署 SEA-LION 落地

    多個新加坡政府部門基於 SEA-LION 部署內部 AI 助手與公共服務原型。

👥 關鍵人物

  • Leslie Teo — AISG AI 產品高階總監 / SEA-LION 專案牽頭人

🔗 關聯資源

📚 延伸閱讀

資料來源

同屬「🧠 核心技術」