Agent S:首个超越人类水平的开源 GUI Agent 框架
标签: 开源项目 / GUI Agent / 电脑使用 / AI自动化
来源: GitHub https://github.com/simular-ai/Agent-S
核心亮点
Agent S 是 simular-ai 开源的一个自主 GUI Agent 框架,使命是构建能够像人类一样使用电脑的智能 Agent。Agent S3 是首个在 OSWorld 基准测试中超越人类水平的 GUI Agent,达到 72.60% 的惊人成绩!支持 Linux、Mac、Windows 三大平台,一行安装:
pip install gui-agents
里程碑突破:Agent S3 超越人类水平
2025年12月15日,Agent S3 成为首个在 OSWorld 基准测试中超越人类水平的 GUI Agent!
| 模型 | OSWorld 分数 | 备注 |
|---|---|---|
| Agent S3 + bBoN | 72.60% | 超越人类 |
| 人类水平 | ~72% | 基准线 |
| Agent S3 (单次) | 66% | 100步设置 |
| GTA1 w/ GPT-5 | 63.4% | 之前 SOTA |
Agent S3 不仅在 OSWorld 上表现出色,还展现了强大的零样本泛化能力:
- WindowsAgentArena: 50.2% → 56.6% (3次rollout)
- AndroidWorld: 68.1% → 71.6% (3次rollout)
三代演进
Agent S1 (ICLR 2025)
- 2024年10月发布论文和代码
- 开创性的 GUI Agent 框架
- 获得 ICLR 2025 Best Paper Award 🏆
Agent S2 (COLM 2025)
- 2025年3月发布,新 SOTA
- 支持 OSWorld、WindowsAgentArena、AndroidWorld
- 论文入选 COLM 2025
Agent S3 (2025年12月)
- 首个超越人类水平的 GUI Agent
- 更简单、更快、更灵活
- 69.9% 基础成绩,72.6% 带 bBoN
安装使用
快速安装
pip install gui-agents
Mac 用户还需安装 tesseract:
brew install tesseract
环境配置
# .bashrc (Linux) 或 .zshrc (MacOS)
export OPENAI_API_KEY=<YOUR_API_KEY>
export ANTHROPIC_API_KEY=<YOUR_ANTHROPIC_API_KEY>
export HF_TOKEN=<YOUR_HF_TOKEN>
推荐配置
最佳性能组合:
- 主模型:OpenAI gpt-5-2025-08-07
- Grounding 模型:UI-TARS-1.5-7B
Grounding 模型分辨率设置:
- UI-TARS-1.5-7B:
--grounding_width 1920 --grounding_height 1080 - UI-TARS-72B:
--grounding_width 1000 --grounding_height 1000
使用方式
命令行启动
agent_s \
--provider openai \
--model gpt-5-2025-08-07 \
--ground_provider huggingface \
--ground_url http://localhost:8080 \
--ground_model ui-tars-1.5-7b \
--grounding_width 1920 \
--grounding_height 1080
启用本地编码环境
agent_s \
--provider openai \
--model gpt-5-2025-08-07 \
--ground_provider huggingface \
--ground_url http://localhost:8080 \
--ground_model ui-tars-1.5-7b \
--grounding_width 1920 \
--grounding_height 1080 \
--enable_local_env
⚠️ 安全警告:本地编码环境会在你的机器上执行任意 Python 和 Bash 代码,仅在可信环境中使用!
核心功能
1. GUI 自动化
- 自动操作电脑界面
- 点击、输入、滚动、拖拽
- 跨应用协作
2. 本地编码环境
Agent S3 可以执行 Python 和 Bash 代码,适合:
- 数据处理(CSV、Excel、数据库)
- 文件操作(批量处理、内容提取)
- 系统自动化(配置、脚本)
- 代码开发(编写、编辑、执行)
3. 反思 Agent
- Worker Agent + Reflection Agent 双架构
- 自动反思和纠错
4. 多模型支持
- OpenAI
- Anthropic
- Gemini
- Open Router
- vLLM
- Azure OpenAI
性能基准
OSWorld (100步设置)
| 模型 | 分数 |
|---|---|
| Agent S3 + bBoN | 72.60% |
| 人类 | ~72% |
| Agent S3 (单次) | 66% |
| Agent S2 | 34.5% |
WindowsAgentArena
| 模型 | 分数 |
|---|---|
| Agent S3 (3次rollout) | 56.6% |
| Agent S3 (单次) | 50.2% |
AndroidWorld
| 模型 | 分数 |
|---|---|
| Agent S3 (3次rollout) | 71.6% |
| Agent S3 (单次) | 68.1% |
Python API 使用
import pyautogui
import io
from gui_agents.s3.agents.agent_s import AgentS3
from gui_agents.s3.agents.grounding import OSWorldACI
from dotenv import load_dotenv
load_dotenv()
current_platform = "linux" # 或 "darwin", "windows"
# 主模型配置
engine_params = {
"engine_type": "openai",
"model": "gpt-5-2025-08-07",
}
# Grounding 模型配置
engine_params_for_grounding = {
"engine_type": "huggingface",
"model": "ui-tars-1.5-7b",
"base_url": "http://localhost:8080",
"grounding_width": 1920,
"grounding_height": 1080,
}
# 创建 Grounding Agent
grounding_agent = OSWorldACI(
platform=current_platform,
engine_params_for_generation=engine_params,
engine_params_for_grounding=engine_params_for_grounding,
width=1920,
height=1080
)
# 创建 Agent S3
agent = AgentS3(
engine_params,
grounding_agent,
platform=current_platform,
max_trajectory_length=8,
enable_reflection=True
)
# 执行任务
screenshot = pyautogui.screenshot()
buffered = io.BytesIO()
screenshot.save(buffered, format="PNG")
screenshot_bytes = buffered.getvalue()
obs = {"screenshot": screenshot_bytes}
instruction = "Close VS Code"
info, action = agent.predict(instruction=instruction, observation=obs)
exec(action[0])
安全注意事项
- 单显示器支持:Agent 设计用于单显示器
- 代码执行风险:Agent 运行 Python 代码控制电脑,需谨慎使用
- 权限级别:Agent 以用户权限运行
- 超时保护:Bash 脚本有30秒超时
项目信息
| 属性 | 详情 |
|---|---|
| 项目名 | Agent-S (Agent S) |
| 组织 | simular-ai |
| GitHub | https://github.com/simular-ai/Agent-S |
| PyPI | gui-agents |
| 支持平台 | Linux, Mac, Windows |
| 主模型 | OpenAI GPT-5 |
| Grounding | UI-TARS-1.5-7B |
| 许可证 | 开源 |
相关论文
- Agent S3: "The Unreasonable Effectiveness of Scaling Agents for Computer Use" (arXiv:2510.02250)
- Agent S2: "Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents" (COLM 2025)
- Agent S: "Agent S: An Open Agentic Framework that Uses Computers Like a Human" (ICLR 2025, Best Paper Award)
适用场景
- 桌面自动化:自动操作各类桌面应用
- 数据处理:批量文件处理、数据分析
- 系统运维:配置管理、系统监控
- 测试自动化:GUI 自动化测试
- 办公自动化:Excel、Word、邮件自动化
写在最后
Agent S3 的 72.60% 成绩标志着 GUI Agent 正式进入「超越人类」时代。
这不仅是技术突破,更是 AI 能力边界的又一次拓展。从只能理解文本,到可以看懂屏幕、操作界面,AI 正在一步步接管那些需要人类手动操作的任务。
开源意味着你可以立刻尝试:pip install gui-agents
让 AI 帮你操作电脑,不再是科幻。
内容整理自 GitHub https://github.com/simular-ai/Agent-S