GPT-5.5 Pro、ECIスコア159を達成:総合指標で歴代モデルを凌駕

GPT-5.5 Pro、ECIスコア159を達成:総合指標で歴代モデルを凌駕

結論

GPT-5.5 ProはECI(Epoch Capabilities Index)総合指標で159点を達成した。この指数はEpoch AIが設計したもので、37の異なるベンチマークテストを単一スコアに統合し、難易度の高いベンチマークにより高い重みを付与している。GPT-5.4 Proがそれまで保持していた最高スコアと比較して、159点は世代を超えた向上を示している。

実用面では、GPT-5.5はMLE-Bench(機械学習エンジニアリング能力テスト)で36%(GPT-5.4は23%)、OSWorld(コンピューター操作タスク)で78.7%を達成し、Claude Opus 4.7を上回った。20時間のソフトウェアエンジニアリングタスク解決率73%で、現在最も強力なコーディングモデルとなっている。

テスト次元

ECI総合指標の解读

ECIの核心的な優位性は、モデルが簡単なベンチマークでスコアを水増ししても歪まないことにある。重みはより難しいタスクに傾いており、つまり159点はベンチマークの過学習ではなく、「真に挑戦的なタスク」におけるパフォーマンス向上を反映している。

FrontierMath(最先端数学推論)はECIの重要な構成要素である。GPT-5.5 Proはこのベンチマークで前例のない推論能力を示し、未解決または極めて難しい研究レベルの数学問題に対応した。

コーディングとエージェント能力

ベンチマークGPT-5.5GPT-5.4Claude Opus 4.7
MLE-Bench36%23%-
OSWorld78.7%-78.7%未満
CyberGym81.8%--
SWE-bench (20h)73%--

GPT-5.5はGPT-5.4と同じトークンレイテンシーを維持しつつ、同じCodexタスクを完了するために必要なトークン量が少ない。API価格は入力$5/Mトークン、出力$30/Mトークン、コンテキストウィンドウ100万トークン。

ナレッジワークと科学研究

GDPvalテストは44の職業ナレッジワークシナリオをカバーし、GPT-5.5の勝利または同率率は84.9%に達した(GPT-5.4は83.0%、Claude Opus 4.7は80.3%)。OpenAIが新たに追加した内部評価であるGeneBench(多段階遺伝学および定量生物学データ分析)においても、GPT-5.5はリードしている。

選定アドバイス

  • コーディング/エージェント開発:GPT-5.5は現在総合コーディング能力が最も強く、MLE-BenchとSWE-benchでダブルリード
  • 科学研究/数学推論:GPT-5.5 ProはFrontierMathとECIでリードしており、高難度の研究シナリオに適している
  • コスト管理:GPT-5.5のトークン効率は5.4を上回り、同じタスクをより少ないトークンで完了
  • 企業ナレッジワーク:GDPval 84.9%の勝利率で、文書分析や戦略策定などのシナリオに適している

主要ソース