C
ChaoBro

GPT-5.5 幻觉率 86% 的警告:模型智商够了,但靠谱度呢?

GPT-5.5 幻觉率 86% 的警告:模型智商够了,但靠谱度呢?

结论

GPT-5.5 是 2026 年 4 月 benchmark 上的王者——Terminal-Bench 82.7%、GDPval 84.9%、CyberGym 81.8%,全面领先 Claude Opus 4.7。

但它有一个致命弱点:在 AA-Omniscience 幻觉率测试中,86% 的问题会产生看似合理但实际错误的答案。Claude Opus 4.7 在同一测试中的幻觉率是 36%。

这意味着:GPT-5.5 的”自信错误”比 Claude Opus 4.7 多 2.4 倍。如果你的工作流不能容忍”一本正经地胡说八道”,这个数据比任何 benchmark 都重要。

测试维度

Terminal-Bench 2.0:GPT-5.5 大胜

指标GPT-5.5Claude Opus 4.7差距
Terminal-Bench 2.082.7%69.4%+13.3%
GDPval(数据分析)84.9%80.3%+4.6%
CyberGym(安全)81.8%73.1%+8.7%

GPT-5.5(代号”Spud”)是 GPT-4.5 之后首次真正重训的模型。OpenAI 用 6 次”虚发布”掩护资源,一出手就在终端操作、多步 Agent 和自动化任务上拉开了差距。

AA-Omniscience 幻觉率:Claude Opus 4.7 碾压

AA-Omniscience 测试的核心设计:向模型提出它”不应该知道答案”的问题(比如编造的事件、虚构的人物),看它是否会”自信地编造答案”。

  • GPT-5.5:86% 的幻觉率——大多数情况下会编造一个听起来合理的答案
  • Claude Opus 4.7:36% 的幻觉率——更倾向于说”我不知道”

这个差距不是”小改进”,是代差级的。对于需要高可靠性的场景(医疗、金融、法律),86% 的幻觉率是不可接受的。

MCP Atlas 工具调用能力

模型MCP Atlas 得分排名
Claude Opus 4.779.1%第 1
Gemini 3.1 Pro78.2%第 2
GPT-5.575.3%第 3

GPT-5.5 在 MCP(Model Context Protocol)工具调用上垫底。有趣的是,分析者指出”这不是要修复的 bug——是要绕过的战场”。OpenAI 的策略可能是做 Super App,在自己围墙内重建 tool 生态,让 MCP”不必要”。

价格

模型输入价格输出价格相对 GPT-5.5
GPT-5.5$30/1M tokens$60/1M tokens基准
Claude Opus 4.7$15/1M tokens$75/1M tokens输入半价
DeepSeek V4 Pro$0.14/1M tokens$0.50/1M tokens1/166

GPT-5.5 的价格是 DeepSeek V4 Pro 的 166 倍。对于大量调用的场景,这个差距会直接反映在运营成本上。

选择建议

选 GPT-5.5 如果:

  • 你的核心需求是终端操作和自动化任务
  • 你需要最强的多步 Agent 能力
  • 你的工作流有”人类审查”环节,可以兜底幻觉问题
  • 预算不是主要约束

选 Claude Opus 4.7 如果:

  • 你需要高可靠性的答案(金融、法律、医疗)
  • 你的工作流中模型输出会直接影响决策
  • 你需要最好的 MCP 工具调用能力
  • 你重视”知道自己不知道”的能力

混合方案:

  • 编码 Agent:GPT-5.5(Terminal-Bench 强)+ Claude Opus 4.7(幻觉率低,code review 靠谱)
  • 数据分析:GPT-5.5(GDPval 强)+ 人工验证
  • 日常助手:Claude Opus 4.7(幻觉率低,更安全)+ DeepSeek V4 Flash(低成本兜底)

一个被忽略的真相

OpenAI 和 Anthropic 的竞争已经进入了”偏科”时代。GPT-5.5 是极致的”执行者”——终端操作、多步任务、自动化流程,它都比你强。但它也是极致的”自信者”——即使是错的,它也会自信地说出来。

Claude Opus 4.7 是更”谨慎”的选手——它可能不会在每个 benchmark 上都第一,但它的回答更可靠。

关键问题是:你的场景更需要”执行力”还是”可靠性”?

如果你的工作流能容忍一定程度的错误(有审查环节、有回滚机制),GPT-5.5 的性能优势值得考虑。如果你的输出直接影响决策且没有审查环节,Claude Opus 4.7 的低幻觉率是更好的保险。