OpenAI 的 Codex Computer Use 让 AI Agent 获得了桌面操控能力,但它是闭源的——你只能调用 API,无法了解内部机制,更无法训练自己的模型。
trycua/cua 正在改变这个局面。这个开源项目在 GitHub Trending 本周排名中快速攀升,累计已获得 15,405 星,单周新增 1,842 星。
项目定位:Computer-Use Agent 的完整基础设施
cua 不是另一个 Agent 框架,而是 Computer-Use 的底层基础设施:
┌─────────────────────────────────────┐
│ Agent 框架层 │
│ (OpenClaw / Hermes / Claude Code) │
├─────────────────────────────────────┤
│ trycua/cua 基础设施层 │
│ ┌─────────┐ ┌─────┐ ┌──────────┐ │
│ │ 沙箱环境 │ │ SDK │ │ 评测基准 │ │
│ └─────────┘ └─────┘ └──────────┘ │
├─────────────────────────────────────┤
│ 操作系统层 │
│ macOS / Linux / Windows │
└─────────────────────────────────────┘
三大核心组件
1. 跨平台沙箱环境
cua 提供了完整的桌面控制沙箱:
| 平台 | 支持状态 | 说明 |
|---|---|---|
| macOS | ✅ | 完整的鼠标/键盘/屏幕控制 |
| Linux | ✅ | 支持 X11 和 Wayland |
| Windows | ✅ | 原生桌面控制 |
沙箱的设计目标:让 Agent 在隔离环境中安全地操作桌面,同时提供完整的观测和干预能力。
2. SDK
cua 的 SDK 让开发者可以快速构建自己的 Computer-Use Agent:
- 统一的屏幕观测接口:截图、DOM 树、辅助功能树
- 标准的操作接口:鼠标移动、点击、键盘输入
- 状态管理机制:Agent 可以追踪当前操作状态和上下文
- 多 Agent 支持:支持多个 Agent 同时操作同一桌面(这是比 Codex Computer Use 更强的能力)
3. 评测基准
cua 内置了 Computer-Use Agent 的评测基准:
- 标准任务集:覆盖文件操作、网页浏览、应用控制等场景
- 成功率指标:量化 Agent 在各种任务上的表现
- 效率指标:token 消耗、操作步数、错误率
这填补了一个关键空白——目前 Computer-Use 领域缺乏标准化的评测基准,cua 的基准有望成为行业事实标准。
与竞品的对比
| 维度 | trycua/cua | OpenAI Codex CU | Claude Computer Use |
|---|---|---|---|
| 开源 | ✅ 完全开源 | ❌ 闭源 API | ❌ 闭源 API |
| 跨平台 | macOS/Linux/Windows | macOS/Linux | macOS |
| 多 Agent 并发 | ✅ 支持 | ❌ 不支持 | ❌ 不支持 |
| 自定义训练 | ✅ 可训练自有模型 | ❌ | ❌ |
| 评测基准 | ✅ 内置 | ❌ | ❌ |
| 成本 | 自建 | 按 token 计费 | 按 token 计费 |
Hermes 创始人的反应
值得注意的是,Hermes Agent 的创始人已经在社交平台公开表示正在连夜将 Computer-Use 能力整合进 Hermes。考虑到 cua 是纯开源方案,Hermes 很可能直接集成 cua 的沙箱和 SDK。
这意味着:cua 正在成为 Computer-Use Agent 生态的事实标准基础设施——就像 vLLM 是推理服务的标准基础设施一样。
行动建议
- Agent 框架开发者:评估 cua 的 SDK 和沙箱,为你的 Agent 框架添加 Computer-Use 能力提供了现成的底层支持
- 研究者:使用 cua 的评测基准比较不同 Computer-Use 模型的表现,推动领域标准化
- 企业安全团队:cua 的沙箱设计值得参考——它提供了一个在隔离环境中安全运行 Computer-Use Agent 的模板
- 个人开发者:如果你在构建桌面自动化工作流,cua 比闭源 API 方案更灵活、成本更低
在 Computer-Use 这个快速增长的领域,基础设施层的开源方案正在追赶 API 层的闭源方案。trycua/cua 是这个趋势的代表。