GPT-5.5 Codex Agent 实测：浏览器控制、电脑操作与 Agent 自主执行

OpenAI 于 4 月 23 日发布 GPT-5.5 时，同步推出了 Codex Agent 模式。除了编程能力，GPT-5.5 的 Agent 模式最引人注目的是浏览器控制和电脑操作能力——AI 可以自主导航网页、操作应用界面、甚至与客服谈判。

Agent 能力概述

GPT-5.5 Codex Agent 的核心能力：

浏览器控制：在 ChatGPT Pro+ 订阅并开启 computer use 后，Agent 可以接管浏览器，自主完成登录、导航、表单填写等操作
电脑操作：直接操控操作系统界面，无需通过 API 或命令行
实时决策：在操作过程中遇到弹窗、验证码或页面变化时，Agent 可以自主判断并调整策略

实测案例

社区中已有多个真实用例被记录：

取消订阅并申请退款：用户要求 Agent “登录 Amazon，取消 Prime 会员，并申请 4 月份 $15.89 的退款”。Agent 自主完成以下步骤：

登录 Amazon 账户
导航至会员管理页面
取消订阅
打开在线客服聊天
解释计费周期并谈判退款
成功获得 $15 退款

整个过程在几分钟内完成，无需人工干预。

品牌会议室背景生成：OpenAI 在 DevDay 上展示了 BrandRoom 项目，利用 Codex + GPT-5.5 和 GPT Image 2 自动生成品牌化的会议背景，解决远程团队视频会议的背景问题。

与 Claude Code 的对比

在 Agent 编程场景下，有用户反馈 Codex 的定价透明度不如 Claude Code：一个 16 人工程团队考虑从 Codex 转向 Cursor，因为 Cursor 的 token 用量和定价更透明，且支持 Composer 2 等更多模型。

不过，Codex Agent 的浏览器控制能力目前领先——Claude Code 主要聚焦于代码环境内的操作，而 Codex 可以操作浏览器和更广泛的桌面应用。

一个小插曲：Goblin 系统提示词

Codex 的系统提示词中新增了一条规则：禁止提及地精（goblins）、格林姆林（gremlins）、巨魔（trolls）等”生物”，除非与任务相关。社区发现此前 GPT-5.5 在 Codex 中对”goblin”一词出现了过度反应，OpenAI 因此添加了显式禁止规则。这反映了 Agent 模型在复杂交互中的不可预测性。

行动建议

需要浏览器自动化的用户：GPT-5.5 Codex Agent 的浏览器控制能力是当前最成熟的方案之一，建议申请 Pro+ 订阅并开启 computer use 进行测试
工程团队：如果团队主要使用编程 Agent 而非浏览器自动化，可以对比 Codex 和 Cursor/Claude Code 的 token 成本和透明度
安全考量：Agent 可以操作浏览器和系统界面，建议在生产环境中设置明确的权限边界和操作范围

主要来源

OpenAI Codex
OpenAI DevDay 2026
社区实测（X/Twitter）

Agent 能力概述

实测案例

与 Claude Code 的对比

一个小插曲：Goblin 系统提示词

行动建议

主要来源

相关内容

百度文心5.1 Preview悄然上线Arena，全球排名第13，法律领域登顶

阿里 Qwen3.6-Max-Preview 登顶国产模型榜首，智能体编程能力大幅提升

神秘模型 Elephant Alpha 揭晓：InclusionAI 发布 Ling-2.6-Flash，比 Sonnet 4.6 快 6 倍