GPT-5.5 发布:OpenAI 旗舰模型重夺终端能力第一,价格战格局已变

GPT-5.5 发布:OpenAI 旗舰模型重夺终端能力第一,价格战格局已变

OpenAI 在 4 月 23 日发布 GPT-5.5,这是自 GPT-4.5 以来首次大版本升级。新模型在 Terminal-Bench 2.0 上取得 82.7% 的分数,直接拉开与 Claude Opus 4.7(69.4%)和 Gemini 3.1 Pro(68.5%)的差距。这个榜单衡量的是命令行场景下需要规划、迭代和工具协调的长任务——恰好是 Anthropic 在 Opus 4.7 发布会上重点宣传的优势领域。GPT-5.5 在同一个数据集上比 GPT-5.4(75.1%)提升了 7.6 个百分点。

但价格信号同样值得关注。GPT-5.5 的 API 定价为输入 $5.00/M、输出 $30.00/M,比上一代 GPT-5.4($3.50/$18.00)再次大幅上涨。同期 Claude Opus 4.7 定价为 $5.00/$25.00,DeepSeek V4 Pro 仅 $2.20/$3.48。GPT-5.5 已成为当前最贵的前沿模型。

关键数据对比

模型输入价格 ($/M)输出价格 ($/M)Terminal-Bench 2.0上下文窗口
GPT-5.55.0030.0082.7% (SOTA)200K
Claude Opus 4.75.0025.0069.4%200K
Gemini 3.1 Pro3.5015.0068.5%1M
DeepSeek V4 Pro2.203.48未公开1M

从 GPT-5.0 到 GPT-5.5,OpenAI 的定价走了一个陡峭的曲线:输入价从 $0.625 涨到 $5.00(8 倍),输出价从 $5.00 涨到 $30.00(6 倍)。社区用户反馈 GPT-5.5 的 token 消耗量也高于前代,实际使用成本可能比标价差距更大。

格局判断

GPT-5.5 的策略很明确:用能力优势覆盖价格劣势。Terminal-Bench 2.0 的领先幅度(13 个百分点 vs 第二名)确实显著,但这个优势集中在代码和终端任务上,在通用对话、中文写作等场景的社区反馈较为分化。

与此同时,DeepSeek V4 Pro 以不到 GPT-5.5 八分之一的价格提供接近的性能,正在从”平替”走向”首选”。一位社区开发者写道:“DeepSeek 的价格正在做 Costco 对企业软件利润率做过的事。“如果 GPT-5.5 的高价策略持续,价格敏感型用户向开源模型迁移的趋势可能会加速。

行动建议

  • 重度终端/代码用户:GPT-5.5 在 Terminal-Bench 上的优势是实打实的,如果工作流大量依赖命令行工具,值得试用。但注意 token 消耗可能超预期。
  • 通用对话和长文本:Gemini 3.1 Pro 的 1M 上下文和更低价格使其仍是性价比更好的选择。
  • 成本敏感场景:DeepSeek V4 Pro 的 API 价格足够低,在多数非前沿场景可以替代 GPT-5.5。
  • 关注 Codex 额度调整:社区推测 OpenAI 可能在 6 月下调 Codex 订阅的 GPT 调用额度,因为 GPT-5.5 已经”扫除”了前代模型的问题。建议提前规划用量。

主要来源