📦 AI 产品 产品 / 工具 运营中 成立 2021

SGNLP

隶属
AI Singapore
官网
github.com/aisingapore/sgnlp
信息更新
2026-05-02

SGNLP 是 AISG 维护的"新加坡本地 NLP 工具包",包含针对新加坡英语(Singlish)、本地命名实体、多语言代码切换等场景的预训练模型和工具。它在 SEA-LION 出现前是 AISG 在 NLP 领域的旗舰产品。

📖 是什么

SGNLP 包含一系列模型和工具:

  • 新加坡英语理解:Singlish 文本规范化、情感分析
  • 多语言代码切换:识别一段文本中混用了哪些语言(英文 / 中文 / 马来语 / 泰米尔语 mix)
  • 本地命名实体:识别新加坡地名、人名、机构名
  • 复述与摘要:针对新加坡本地新闻/政府文本

随着 SEA-LION 出现,SGNLP 的角色逐渐从"主力产品"变成"专项工具"——通用 NLP 能力让位给 LLM,但 Singlish 等专项场景仍然有独立价值。

🤖 与 AI 的关系

SGNLP 解决的核心问题:通用 NLP 工具在新加坡英语上效果差

新加坡英语(Singlish)混用英语、马来语、华语、泰米尔语,加上独特语法(lah、leh、lor 这种语气词),让 spaCy / NLTK / HuggingFace 的开箱模型在 Singlish 文本上表现糟糕。SGNLP 的预训练模型在 Singlish 数据上专门微调过,准确率显著高于通用模型。

与 SEA-LION 的关系:SEA-LION 作为 LLM 部分覆盖了 SGNLP 的能力,但 SGNLP 的轻量化模型(部分 < 100MB)在边缘部署、实时处理场景仍有优势。

🇸🇬 与新加坡的关系

SGNLP 是新加坡"语言主权"叙事的早期实践——在 LLM 时代之前,AISG 已经在做"为新加坡量身定制的语言 AI"

在「七条传导杠杆」里:

  • 杠杆 3(产业应用):本地客服、社交媒体分析、政府文本处理
  • 杠杆 1(基础研究):Singlish 是少数有学术研究价值的"克里奥尔英语"

观点:SGNLP 的存在让 SEA-LION 有了"思想先驱"——同样的"为本地语言做专项 AI"哲学,从 NLP 工具升级到 LLM。

🗓️ 关键里程碑

  1. 2021
    SGNLP 开源发布

🔗 关联资源

数据来源

同属「📦 AI 产品」