結論
GPT-5.5は2026年4月のベンチマーク王者だ。Terminal-Bench 82.7%、GDPval 84.9%、CyberGym 81.8%。Claude Opus 4.7を全面的にリードしている。
しかし致命的な弱点がある。AA-Omniscience幻覚率テストにおいて、86%の問題で一見合理的だが実際には間違った回答を生成する。Claude Opus 4.7の同テストでの幻覚率は36%だ。
これはつまり、GPT-5.5の「自信満々な間違い」はClaude Opus 4.7の2.4倍であるということ。もしあなたのワークフローが「自信たっぷりに嘘をつく」ことを許容できないなら、このデータはどのベンチマークよりも重要だ。
テスト次元
Terminal-Bench 2.0: GPT-5.5の大勝
| 指標 | GPT-5.5 | Claude Opus 4.7 | 差 |
|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% | +13.3% |
| GDPval(データ分析) | 84.9% | 80.3% | +4.6% |
| CyberGym(セキュリティ) | 81.8% | 73.1% | +8.7% |
GPT-5.5(コードネーム「Spud」)はGPT-4.5以来初めての真のリトレーニングモデル。OpenAIは6回の「偽リリース」でリソースを掩护し、いざ出手となるとターミナル操作、マルチステップエージェント、自動化タスクで差をつけた。
AA-Omniscience 幻覚率: Claude Opus 4.7の圧勝
AA-Omniscienceテストの核心設計:モデルに「知るべきではない」質問を投げかける(でっち上げた事件、架空の人物など)。「自信たっぷりにでっち上げる」かどうかを見る。
- GPT-5.5:幻覚率86%。ほとんどの場合、それらしく聞こえる答えをでっち上げる
- Claude Opus 4.7:幻覚率36%。「分からない」と言う傾向が強い
この差は「小さな改善」ではない。世代差である。高信頼性が求められるシナリオ(医療、金融、法務)において、86%の幻覚率は受け入れられない。
MCP Atlas ツール呼び出し能力
| モデル | MCP Atlasスコア | ランク |
|---|---|---|
| Claude Opus 4.7 | 79.1% | 1位 |
| Gemini 3.1 Pro | 78.2% | 2位 |
| GPT-5.5 | 75.3% | 3位 |
GPT-5.5はMCP(Model Context Protocol)ツール呼び出しで最下位。興味深いことに、分析者は「これは修正すべきバグではなく、回避すべき戦場だ」と指摘する。OpenAIの戦略はSuper Appを作り、自前の壁の中でツールエコシステムを再構築し、MCPを「不要」にすることかもしれない。
選択ガイド
GPT-5.5を選ぶ場合:
- コアニーズがターミナル操作と自動化タスク
- 最強のマルチステップエージェント能力が必要
- ワークフローに「人間レビュー」ステップがあり、幻覚をキャッチできる
- 予算が主要な制約ではない
Claude Opus 4.7を選ぶ場合:
- 高信頼性の回答が必要(金融、法務、医療)
- モデル出力がワークフローの意思決定に直接影響する
- 最高のMCPツール呼び出し能力が必要
- 「自分が知らないことを知っている」ことを重視する
見過ごされがちな真実
OpenAIとAnthropicの競争は「偏科」時代に入った。GPT-5.5は究極の「実行者」——ターミナル操作、マルチステップタスク、自動化フロー、どれもお前より上手い。しかし究極の「自信家」でもある。間違っていようが、自信たっぷりに言う。
Claude Opus 4.7はより「慎重な」選手。どのベンチマークでも1位ではないかもしれないが、回答はより信頼できる。
重要な質問:あなたのシナリオに必要なのは「実行力」か「信頼性」か?
ワークフローが一定の誤差を許容できる(レビューステップ、ロールバックメカニズムがある)なら、GPT-5.5の性能優位は検討に値する。出力がレビューなしで意思決定に直接影響するなら、Claude Opus 4.7の低幻覚率はより良い保険だ。