项目档案
ShowUI
面向 GUI Agent 与 Computer Use 的视觉-语言-动作模型
GitHub Stars
1.8k+
论文
CVPR 2025
方向
Computer Use
- 机构
- NUS Show Lab
- 分组
- 大学与研究机构
- 类别
- GUI Agent 模型
- 状态
- 活跃研究线
- 启动
- 2024-10
- 语言 / 形态
- Python / Models
- 协议
- Apache-2.0
- GitHub Stars
- 1,822
- 信息更新
- 2026-05-04
ShowUI 是面向 GUI Agent 的开源模型,让模型通过截图理解界面,并输出可点击坐标或动作。
是什么
ShowUI 关注的是人类每天实际使用的软件界面:网页、应用窗口、按钮、输入框、菜单。它让模型从视觉界面中定位操作目标,服务于 Computer Use 和 GUI 自动化。
这和纯文本 agent 不同:很多真实软件没有干净 API,也没有完整 DOM 或 accessibility tree。ShowUI 试图直接从画面理解操作。
与 AI 的关系
Agent 落地的瓶颈之一是界面操作。模型会说计划不难,真正难的是在复杂软件里点击对地方、理解状态变化、从失败中恢复。
ShowUI 把 GUI 视觉理解变成模型任务,是 agent 从对话走向真实电脑操作的一条关键路线。
与新加坡的关系
ShowUI 对新加坡的意义在于它切中了企业自动化和 agent 工具链。新加坡大量 AI 落地发生在金融、政务、医疗、物流等复杂系统里,很多流程依然要穿过旧界面。
如果 GUI Agent 变成通用能力,ShowUI 这类研究会成为连接模型和真实软件工作流的基础模块。
关键里程碑
- 2024-10ShowUI 仓库创建
- 2025-02ShowUI 接收为 CVPR 2025 论文