AI Agent 評価方法論:なぜ MMLU と HumanEval ではもう不十分なのか

AI Agent 評価方法論:なぜ MMLU と HumanEval ではもう不十分なのか

HumanEvalスコアでプログラミング能力を、MMLUで汎用知能を判断しているなら、その評価フレームワークはモデルの実際の能力に遅れをとっている可能性がある。

新世代評価フレームワーク

Terminal-Bench 2.0: GPT-5.5が82.7%、Claude Opus 4.7を約13ポイントリード。

AgenticSwarmBench: 300の人工検証タスク、19のエラー注入模擬サービス、完全なトレース監査。

SWE-bench Pro: Claude Opus 4.7が64.3%、GPT-5.5が58.6%。

GENERAL365: K-12知識範囲内の複雑推論ベンチマーク、365問すべて人工策展。

評価の落とし穴

  • Arenaはユーザー選好を反映。 技術能力だけではない。
  • ベンチマークスコア≠実世界での可用性。 64.3%は35.7%の失敗率を意味する。
  • キャッシュ汚染。 ベンチマーク問題で学習したモデルはスコアが水増しされる。

主要ソース: