SGNLP
SGNLP 是 AISG 維護的"新加坡本地 NLP 工具包",包含針對新加坡英語(Singlish)、本地命名實體、多語言程式碼切換等場景的預訓練模型和工具。它在 SEA-LION 出現前是 AISG 在 NLP 領域的旗艦產品。
📖 是什麼
SGNLP 包含一系列模型和工具:
- 新加坡英語理解:Singlish 文本規範化、情感分析
- 多語言程式碼切換:識別一段文本中混用了哪些語言(英文 / 中文 / 馬來語 / 泰米爾語 mix)
- 本地命名實體:識別新加坡地名、人名、機構名
- 複述與摘要:針對新加坡本地新聞/政府文本
隨著 SEA-LION 出現,SGNLP 的角色逐漸從"主力產品"變成"專項工具"——通用 NLP 能力讓位給 LLM,但 Singlish 等專項場景仍然有獨立價值。
🤖 與 AI 的關係
SGNLP 解決的核心問題:通用 NLP 工具在新加坡英語上效果差。
新加坡英語(Singlish)混用英語、馬來語、華語、泰米爾語,加上獨特語法(lah、leh、lor 這種語氣詞),讓 spaCy / NLTK / HuggingFace 的開箱模型在 Singlish 文本上表現糟糕。SGNLP 的預訓練模型在 Singlish 資料上專門微調過,準確率顯著高於通用模型。
與 SEA-LION 的關係:SEA-LION 作為 LLM 部分覆蓋了 SGNLP 的能力,但 SGNLP 的輕量化模型(部分 < 100MB)在邊緣部署、即時處理場景仍有優勢。
🇸🇬 與新加坡的關係
SGNLP 是新加坡"語言主權"敘事的早期實踐——在 LLM 時代之前,AISG 已經在做"為新加坡量身定製的語言 AI"。
在「七條傳導槓桿」裡:
- 槓桿 3(產業應用):本地客服、社交媒體分析、政府文本處理
- 槓桿 1(基礎研究):Singlish 是少數有學術研究價值的"克里奧爾英語"
觀點:SGNLP 的存在讓 SEA-LION 有了"思想先驅"——同樣的"為本地語言做專項 AI"哲學,從 NLP 工具升級到 LLM。
🗓️ 關鍵里程碑
- 2021SGNLP 開源釋出
🔗 關聯資源
資料來源
- SGNLP GitHub — 訪問於 2026-05-02