GPT-5.5 Codex Agent 实测:浏览器控制、电脑操作与 Agent 自主执行

GPT-5.5 Codex Agent 实测:浏览器控制、电脑操作与 Agent 自主执行

OpenAI 于 4 月 23 日发布 GPT-5.5 时,同步推出了 Codex Agent 模式。除了编程能力,GPT-5.5 的 Agent 模式最引人注目的是浏览器控制和电脑操作能力——AI 可以自主导航网页、操作应用界面、甚至与客服谈判。

Agent 能力概述

GPT-5.5 Codex Agent 的核心能力:

  • 浏览器控制:在 ChatGPT Pro+ 订阅并开启 computer use 后,Agent 可以接管浏览器,自主完成登录、导航、表单填写等操作
  • 电脑操作:直接操控操作系统界面,无需通过 API 或命令行
  • 实时决策:在操作过程中遇到弹窗、验证码或页面变化时,Agent 可以自主判断并调整策略

实测案例

社区中已有多个真实用例被记录:

取消订阅并申请退款:用户要求 Agent “登录 Amazon,取消 Prime 会员,并申请 4 月份 $15.89 的退款”。Agent 自主完成以下步骤:

  1. 登录 Amazon 账户
  2. 导航至会员管理页面
  3. 取消订阅
  4. 打开在线客服聊天
  5. 解释计费周期并谈判退款
  6. 成功获得 $15 退款

整个过程在几分钟内完成,无需人工干预。

品牌会议室背景生成:OpenAI 在 DevDay 上展示了 BrandRoom 项目,利用 Codex + GPT-5.5 和 GPT Image 2 自动生成品牌化的会议背景,解决远程团队视频会议的背景问题。

与 Claude Code 的对比

在 Agent 编程场景下,有用户反馈 Codex 的定价透明度不如 Claude Code:一个 16 人工程团队考虑从 Codex 转向 Cursor,因为 Cursor 的 token 用量和定价更透明,且支持 Composer 2 等更多模型。

不过,Codex Agent 的浏览器控制能力目前领先——Claude Code 主要聚焦于代码环境内的操作,而 Codex 可以操作浏览器和更广泛的桌面应用。

一个小插曲:Goblin 系统提示词

Codex 的系统提示词中新增了一条规则:禁止提及地精(goblins)、格林姆林(gremlins)、巨魔(trolls)等”生物”,除非与任务相关。社区发现此前 GPT-5.5 在 Codex 中对”goblin”一词出现了过度反应,OpenAI 因此添加了显式禁止规则。这反映了 Agent 模型在复杂交互中的不可预测性。

行动建议

  • 需要浏览器自动化的用户:GPT-5.5 Codex Agent 的浏览器控制能力是当前最成熟的方案之一,建议申请 Pro+ 订阅并开启 computer use 进行测试
  • 工程团队:如果团队主要使用编程 Agent 而非浏览器自动化,可以对比 Codex 和 Cursor/Claude Code 的 token 成本和透明度
  • 安全考量:Agent 可以操作浏览器和系统界面,建议在生产环境中设置明确的权限边界和操作范围

主要来源