SGNLP
SGNLP 是 AISG 维护的"新加坡本地 NLP 工具包",包含针对新加坡英语(Singlish)、本地命名实体、多语言代码切换等场景的预训练模型和工具。它在 SEA-LION 出现前是 AISG 在 NLP 领域的旗舰产品。
📖 是什么
SGNLP 包含一系列模型和工具:
- 新加坡英语理解:Singlish 文本规范化、情感分析
- 多语言代码切换:识别一段文本中混用了哪些语言(英文 / 中文 / 马来语 / 泰米尔语 mix)
- 本地命名实体:识别新加坡地名、人名、机构名
- 复述与摘要:针对新加坡本地新闻/政府文本
随着 SEA-LION 出现,SGNLP 的角色逐渐从"主力产品"变成"专项工具"——通用 NLP 能力让位给 LLM,但 Singlish 等专项场景仍然有独立价值。
🤖 与 AI 的关系
SGNLP 解决的核心问题:通用 NLP 工具在新加坡英语上效果差。
新加坡英语(Singlish)混用英语、马来语、华语、泰米尔语,加上独特语法(lah、leh、lor 这种语气词),让 spaCy / NLTK / HuggingFace 的开箱模型在 Singlish 文本上表现糟糕。SGNLP 的预训练模型在 Singlish 数据上专门微调过,准确率显著高于通用模型。
与 SEA-LION 的关系:SEA-LION 作为 LLM 部分覆盖了 SGNLP 的能力,但 SGNLP 的轻量化模型(部分 < 100MB)在边缘部署、实时处理场景仍有优势。
🇸🇬 与新加坡的关系
SGNLP 是新加坡"语言主权"叙事的早期实践——在 LLM 时代之前,AISG 已经在做"为新加坡量身定制的语言 AI"。
在「七条传导杠杆」里:
- 杠杆 3(产业应用):本地客服、社交媒体分析、政府文本处理
- 杠杆 1(基础研究):Singlish 是少数有学术研究价值的"克里奥尔英语"
观点:SGNLP 的存在让 SEA-LION 有了"思想先驱"——同样的"为本地语言做专项 AI"哲学,从 NLP 工具升级到 LLM。
🗓️ 关键里程碑
- 2021SGNLP 开源发布
🔗 关联资源
传导杠杆
关联生态实体
数据来源
- SGNLP GitHub — 访问于 2026-05-02