GPT-5.5 Pro、ECIスコア159を達成：総合指標で歴代モデルを凌駕

結論

GPT-5.5 ProはECI（Epoch Capabilities Index）総合指標で159点を達成した。この指数はEpoch AIが設計したもので、37の異なるベンチマークテストを単一スコアに統合し、難易度の高いベンチマークにより高い重みを付与している。GPT-5.4 Proがそれまで保持していた最高スコアと比較して、159点は世代を超えた向上を示している。

実用面では、GPT-5.5はMLE-Bench（機械学習エンジニアリング能力テスト）で36%（GPT-5.4は23%）、OSWorld（コンピューター操作タスク）で78.7%を達成し、Claude Opus 4.7を上回った。20時間のソフトウェアエンジニアリングタスク解決率73%で、現在最も強力なコーディングモデルとなっている。

テスト次元

ECI総合指標の解读

ECIの核心的な優位性は、モデルが簡単なベンチマークでスコアを水増ししても歪まないことにある。重みはより難しいタスクに傾いており、つまり159点はベンチマークの過学習ではなく、「真に挑戦的なタスク」におけるパフォーマンス向上を反映している。

FrontierMath（最先端数学推論）はECIの重要な構成要素である。GPT-5.5 Proはこのベンチマークで前例のない推論能力を示し、未解決または極めて難しい研究レベルの数学問題に対応した。

コーディングとエージェント能力

ベンチマーク	GPT-5.5	GPT-5.4	Claude Opus 4.7
MLE-Bench	36%	23%	-
OSWorld	78.7%	-	78.7%未満
CyberGym	81.8%	-	-
SWE-bench (20h)	73%	-	-

GPT-5.5はGPT-5.4と同じトークンレイテンシーを維持しつつ、同じCodexタスクを完了するために必要なトークン量が少ない。API価格は入力$5/Mトークン、出力$30/Mトークン、コンテキストウィンドウ100万トークン。

ナレッジワークと科学研究

GDPvalテストは44の職業ナレッジワークシナリオをカバーし、GPT-5.5の勝利または同率率は84.9%に達した（GPT-5.4は83.0%、Claude Opus 4.7は80.3%）。OpenAIが新たに追加した内部評価であるGeneBench（多段階遺伝学および定量生物学データ分析）においても、GPT-5.5はリードしている。

選定アドバイス

コーディング/エージェント開発：GPT-5.5は現在総合コーディング能力が最も強く、MLE-BenchとSWE-benchでダブルリード
科学研究/数学推論：GPT-5.5 ProはFrontierMathとECIでリードしており、高難度の研究シナリオに適している
コスト管理：GPT-5.5のトークン効率は5.4を上回り、同じタスクをより少ないトークンで完了
企業ナレッジワーク：GDPval 84.9%の勝利率で、文書分析や戦略策定などのシナリオに適している

結論

テスト次元

ECI総合指標の解读

コーディングとエージェント能力

ナレッジワークと科学研究

選定アドバイス

主要ソース

関連コンテンツ

Kimi K2.6 が Design Arena で首位獲得：月之暗面が 3D デザイン領域ですべての米国モデルを上回る

Qwen 3.6 Max BS Benchmark評価：反ハルシネーション能力が全OpenAIモデルを上回る

Oxford/LLNL連鎖推論ベンチマーク：GPT単体95.7%、連鎖後は9.83%に急落