GPT-5.5 Pro ECI 评分 159：综合指标超越所有前代模型

结论

GPT-5.5 Pro 在 ECI（Epoch Capabilities Index）综合指标中得分 159，这一指数由 Epoch AI 设计，将 37 个不同基准测试合并为单一评分，且对高难度基准赋予更高权重。相比 GPT-5.4 Pro 此前的最高分，159 分标志着跨代提升。

在实际应用层面，GPT-5.5 在 MLE-Bench（机器学习工程能力测试）上达到 36%（GPT-5.4 为 23%），在 OSWorld（计算机操作任务）上达到 78.7%，超越 Claude Opus 4.7。20 小时软件工程任务解决率 73%，成为当前编码能力最强的模型。

测试维度

ECI 综合指标解读

ECI 的核心优势在于不会因模型在简单基准上刷分而失真。权重向更难的任务倾斜，这意味着 159 分反映的是模型在”真正有挑战性的任务”上的表现提升，而非基准过拟合。

FrontierMath（前沿数学推理）是 ECI 的重要组成。GPT-5.5 Pro 在该基准上展示了前所未有的推理能力，处理未解决的或极难的研究级数学问题。

编码与代理能力

基准	GPT-5.5	GPT-5.4	Claude Opus 4.7
MLE-Bench	36%	23%	-
OSWorld	78.7%	-	低于 78.7%
CyberGym	81.8%	-	-
SWE-bench (20h)	73%	-	-

GPT-5.5 在保持与 GPT-5.4 相同 token 延迟的同时，完成相同 Codex 任务所需的 token 量更少。API 定价为输入 $5/M token、输出 $30/M token，上下文窗口 100 万 token。

知识工作与科研

GDPval 测试覆盖 44 个职业知识工作场景，GPT-5.5 的胜出或持平率达到 84.9%（GPT-5.4 为 83.0%，Claude Opus 4.7 为 80.3%）。在 GeneBench（多阶段遗传学和定量生物学数据分析）这一 OpenAI 新增的内部评测中，GPT-5.5 同样领先。

选择建议

编程/Agent 开发：GPT-5.5 当前综合编码能力最强，MLE-Bench 和 SWE-bench 双领先
科研/数学推理：GPT-5.5 Pro 在 FrontierMath 和 ECI 上领先，适合高难度研究场景
成本控制：GPT-5.5 的 token 效率优于 5.4，完成相同任务消耗更少 token
企业知识工作：GDPval 84.9% 胜出率，适合文档分析、策略制定等场景

结论

测试维度

ECI 综合指标解读

编码与代理能力

知识工作与科研

选择建议

主要来源

相关内容

Kimi K2.6 登顶 Design Arena：月之暗面在 3D 设计领域超越所有美国模型

Qwen 3.6 Max BS Benchmark 评测：反幻觉能力超越所有 OpenAI 模型

Oxford/LLNL 链式推理基准：GPT 单项 95.7%，串联后暴跌至 9.83%