GPT-5.5 Pro ECI 评分 159:综合指标超越所有前代模型

GPT-5.5 Pro ECI 评分 159:综合指标超越所有前代模型

结论

GPT-5.5 Pro 在 ECI(Epoch Capabilities Index)综合指标中得分 159,这一指数由 Epoch AI 设计,将 37 个不同基准测试合并为单一评分,且对高难度基准赋予更高权重。相比 GPT-5.4 Pro 此前的最高分,159 分标志着跨代提升。

在实际应用层面,GPT-5.5 在 MLE-Bench(机器学习工程能力测试)上达到 36%(GPT-5.4 为 23%),在 OSWorld(计算机操作任务)上达到 78.7%,超越 Claude Opus 4.7。20 小时软件工程任务解决率 73%,成为当前编码能力最强的模型。

测试维度

ECI 综合指标解读

ECI 的核心优势在于不会因模型在简单基准上刷分而失真。权重向更难的任务倾斜,这意味着 159 分反映的是模型在”真正有挑战性的任务”上的表现提升,而非基准过拟合。

FrontierMath(前沿数学推理)是 ECI 的重要组成。GPT-5.5 Pro 在该基准上展示了前所未有的推理能力,处理未解决的或极难的研究级数学问题。

编码与代理能力

基准GPT-5.5GPT-5.4Claude Opus 4.7
MLE-Bench36%23%-
OSWorld78.7%-低于 78.7%
CyberGym81.8%--
SWE-bench (20h)73%--

GPT-5.5 在保持与 GPT-5.4 相同 token 延迟的同时,完成相同 Codex 任务所需的 token 量更少。API 定价为输入 $5/M token、输出 $30/M token,上下文窗口 100 万 token。

知识工作与科研

GDPval 测试覆盖 44 个职业知识工作场景,GPT-5.5 的胜出或持平率达到 84.9%(GPT-5.4 为 83.0%,Claude Opus 4.7 为 80.3%)。在 GeneBench(多阶段遗传学和定量生物学数据分析)这一 OpenAI 新增的内部评测中,GPT-5.5 同样领先。

选择建议

  • 编程/Agent 开发:GPT-5.5 当前综合编码能力最强,MLE-Bench 和 SWE-bench 双领先
  • 科研/数学推理:GPT-5.5 Pro 在 FrontierMath 和 ECI 上领先,适合高难度研究场景
  • 成本控制:GPT-5.5 的 token 效率优于 5.4,完成相同任务消耗更少 token
  • 企业知识工作:GDPval 84.9% 胜出率,适合文档分析、策略制定等场景

主要来源