OpenAI 在 4 月 23 日发布 GPT-5.5,这是自 GPT-4.5 以来首次大版本升级。新模型在 Terminal-Bench 2.0 上取得 82.7% 的分数,直接拉开与 Claude Opus 4.7(69.4%)和 Gemini 3.1 Pro(68.5%)的差距。这个榜单衡量的是命令行场景下需要规划、迭代和工具协调的长任务——恰好是 Anthropic 在 Opus 4.7 发布会上重点宣传的优势领域。GPT-5.5 在同一个数据集上比 GPT-5.4(75.1%)提升了 7.6 个百分点。
但价格信号同样值得关注。GPT-5.5 的 API 定价为输入 $5.00/M、输出 $30.00/M,比上一代 GPT-5.4($3.50/$18.00)再次大幅上涨。同期 Claude Opus 4.7 定价为 $5.00/$25.00,DeepSeek V4 Pro 仅 $2.20/$3.48。GPT-5.5 已成为当前最贵的前沿模型。
关键数据对比
| 模型 | 输入价格 ($/M) | 输出价格 ($/M) | Terminal-Bench 2.0 | 上下文窗口 |
|---|---|---|---|---|
| GPT-5.5 | 5.00 | 30.00 | 82.7% (SOTA) | 200K |
| Claude Opus 4.7 | 5.00 | 25.00 | 69.4% | 200K |
| Gemini 3.1 Pro | 3.50 | 15.00 | 68.5% | 1M |
| DeepSeek V4 Pro | 2.20 | 3.48 | 未公开 | 1M |
从 GPT-5.0 到 GPT-5.5,OpenAI 的定价走了一个陡峭的曲线:输入价从 $0.625 涨到 $5.00(8 倍),输出价从 $5.00 涨到 $30.00(6 倍)。社区用户反馈 GPT-5.5 的 token 消耗量也高于前代,实际使用成本可能比标价差距更大。
格局判断
GPT-5.5 的策略很明确:用能力优势覆盖价格劣势。Terminal-Bench 2.0 的领先幅度(13 个百分点 vs 第二名)确实显著,但这个优势集中在代码和终端任务上,在通用对话、中文写作等场景的社区反馈较为分化。
与此同时,DeepSeek V4 Pro 以不到 GPT-5.5 八分之一的价格提供接近的性能,正在从”平替”走向”首选”。一位社区开发者写道:“DeepSeek 的价格正在做 Costco 对企业软件利润率做过的事。“如果 GPT-5.5 的高价策略持续,价格敏感型用户向开源模型迁移的趋势可能会加速。
行动建议
- 重度终端/代码用户:GPT-5.5 在 Terminal-Bench 上的优势是实打实的,如果工作流大量依赖命令行工具,值得试用。但注意 token 消耗可能超预期。
- 通用对话和长文本:Gemini 3.1 Pro 的 1M 上下文和更低价格使其仍是性价比更好的选择。
- 成本敏感场景:DeepSeek V4 Pro 的 API 价格足够低,在多数非前沿场景可以替代 GPT-5.5。
- 关注 Codex 额度调整:社区推测 OpenAI 可能在 6 月下调 Codex 订阅的 GPT 调用额度,因为 GPT-5.5 已经”扫除”了前代模型的问题。建议提前规划用量。