返回产学研开源生态 GUI Agent 模型 活跃研究线

项目档案

ShowUI

面向 GUI Agent 与 Computer Use 的视觉-语言-动作模型

GitHub Stars
1.8k+
论文
CVPR 2025
方向
Computer Use
机构
NUS Show Lab
分组
大学与研究机构
类别
GUI Agent 模型
状态
活跃研究线
启动
2024-10
语言 / 形态
Python / Models
协议
Apache-2.0
GitHub Stars
1,822
信息更新
2026-05-04

ShowUI 是面向 GUI Agent 的开源模型,让模型通过截图理解界面,并输出可点击坐标或动作。

是什么

ShowUI 关注的是人类每天实际使用的软件界面:网页、应用窗口、按钮、输入框、菜单。它让模型从视觉界面中定位操作目标,服务于 Computer Use 和 GUI 自动化。

这和纯文本 agent 不同:很多真实软件没有干净 API,也没有完整 DOM 或 accessibility tree。ShowUI 试图直接从画面理解操作。

与 AI 的关系

Agent 落地的瓶颈之一是界面操作。模型会说计划不难,真正难的是在复杂软件里点击对地方、理解状态变化、从失败中恢复。

ShowUI 把 GUI 视觉理解变成模型任务,是 agent 从对话走向真实电脑操作的一条关键路线。

与新加坡的关系

ShowUI 对新加坡的意义在于它切中了企业自动化和 agent 工具链。新加坡大量 AI 落地发生在金融、政务、医疗、物流等复杂系统里,很多流程依然要穿过旧界面。

如果 GUI Agent 变成通用能力,ShowUI 这类研究会成为连接模型和真实软件工作流的基础模块。

关键里程碑

  1. 2024-10
    ShowUI 仓库创建
  2. 2025-02
    ShowUI 接收为 CVPR 2025 论文

资源入口

更多产学研项目