trycua/cua：15K Stars 的开源 Computer-Use Agent 基础设施，沙箱 + SDK + 评测一网打尽

OpenAI 的 Codex Computer Use 让 AI Agent 获得了桌面操控能力，但它是闭源的——你只能调用 API，无法了解内部机制，更无法训练自己的模型。

trycua/cua 正在改变这个局面。这个开源项目在 GitHub Trending 本周排名中快速攀升，累计已获得 15,405 星，单周新增 1,842 星。

项目定位：Computer-Use Agent 的完整基础设施

cua 不是另一个 Agent 框架，而是 Computer-Use 的底层基础设施：

┌─────────────────────────────────────┐
│           Agent 框架层              │
│  (OpenClaw / Hermes / Claude Code)  │
├─────────────────────────────────────┤
│        trycua/cua 基础设施层         │
│  ┌─────────┐ ┌─────┐ ┌──────────┐  │
│  │ 沙箱环境 │ │ SDK │ │ 评测基准 │  │
│  └─────────┘ └─────┘ └──────────┘  │
├─────────────────────────────────────┤
│         操作系统层                   │
│   macOS / Linux / Windows           │
└─────────────────────────────────────┘

三大核心组件

1. 跨平台沙箱环境

cua 提供了完整的桌面控制沙箱：

平台	支持状态	说明
macOS	✅	完整的鼠标/键盘/屏幕控制
Linux	✅	支持 X11 和 Wayland
Windows	✅	原生桌面控制

沙箱的设计目标：让 Agent 在隔离环境中安全地操作桌面，同时提供完整的观测和干预能力。

2. SDK

cua 的 SDK 让开发者可以快速构建自己的 Computer-Use Agent：

统一的屏幕观测接口：截图、DOM 树、辅助功能树
标准的操作接口：鼠标移动、点击、键盘输入
状态管理机制：Agent 可以追踪当前操作状态和上下文
多 Agent 支持：支持多个 Agent 同时操作同一桌面（这是比 Codex Computer Use 更强的能力）

3. 评测基准

cua 内置了 Computer-Use Agent 的评测基准：

标准任务集：覆盖文件操作、网页浏览、应用控制等场景
成功率指标：量化 Agent 在各种任务上的表现
效率指标：token 消耗、操作步数、错误率

这填补了一个关键空白——目前 Computer-Use 领域缺乏标准化的评测基准，cua 的基准有望成为行业事实标准。

与竞品的对比

维度	trycua/cua	OpenAI Codex CU	Claude Computer Use
开源	✅ 完全开源	❌ 闭源 API	❌ 闭源 API
跨平台	macOS/Linux/Windows	macOS/Linux	macOS
多 Agent 并发	✅ 支持	❌ 不支持	❌ 不支持
自定义训练	✅ 可训练自有模型	❌	❌
评测基准	✅ 内置	❌	❌
成本	自建	按 token 计费	按 token 计费

Hermes 创始人的反应

值得注意的是，Hermes Agent 的创始人已经在社交平台公开表示正在连夜将 Computer-Use 能力整合进 Hermes。考虑到 cua 是纯开源方案，Hermes 很可能直接集成 cua 的沙箱和 SDK。

这意味着：cua 正在成为 Computer-Use Agent 生态的事实标准基础设施——就像 vLLM 是推理服务的标准基础设施一样。

行动建议

Agent 框架开发者：评估 cua 的 SDK 和沙箱，为你的 Agent 框架添加 Computer-Use 能力提供了现成的底层支持
研究者：使用 cua 的评测基准比较不同 Computer-Use 模型的表现，推动领域标准化
企业安全团队：cua 的沙箱设计值得参考——它提供了一个在隔离环境中安全运行 Computer-Use Agent 的模板
个人开发者：如果你在构建桌面自动化工作流，cua 比闭源 API 方案更灵活、成本更低

在 Computer-Use 这个快速增长的领域，基础设施层的开源方案正在追赶 API 层的闭源方案。trycua/cua 是这个趋势的代表。

项目定位：Computer-Use Agent 的完整基础设施

三大核心组件

1. 跨平台沙箱环境

2. SDK

3. 评测基准

与竞品的对比

Hermes 创始人的反应

行动建议

相关内容

GitHub Trending #1：DeepSeek-TUI 日增 2400 星，终端里的 AI 编程Agent 杀疯了

InsForge 登上 GitHub Trending：专为 Coding Agent 构建的 Postgres 后端，8200+ Star

OpenClaw 2026.5.5 发布：飞书/Telegram 修复与插件系统加固