HumanEvalスコアでプログラミング能力を、MMLUで汎用知能を判断しているなら、その評価フレームワークはモデルの実際の能力に遅れをとっている可能性がある。
新世代評価フレームワーク
Terminal-Bench 2.0: GPT-5.5が82.7%、Claude Opus 4.7を約13ポイントリード。
AgenticSwarmBench: 300の人工検証タスク、19のエラー注入模擬サービス、完全なトレース監査。
SWE-bench Pro: Claude Opus 4.7が64.3%、GPT-5.5が58.6%。
GENERAL365: K-12知識範囲内の複雑推論ベンチマーク、365問すべて人工策展。
評価の落とし穴
- Arenaはユーザー選好を反映。 技術能力だけではない。
- ベンチマークスコア≠実世界での可用性。 64.3%は35.7%の失敗率を意味する。
- キャッシュ汚染。 ベンチマーク問題で学習したモデルはスコアが水増しされる。
主要ソース: