AI Agent 評価方法論：なぜ MMLU と HumanEval ではもう不十分なのか

2026年4月29日 by ChaoBro

#AI Agent #評価方法 #ベンチマーク #AgenticSwarmBench #Terminal-Bench

AI Agent 評価方法論：なぜ MMLU と HumanEval ではもう不十分なのか

HumanEvalスコアでプログラミング能力を、MMLUで汎用知能を判断しているなら、その評価フレームワークはモデルの実際の能力に遅れをとっている可能性がある。

新世代評価フレームワーク

Terminal-Bench 2.0： GPT-5.5が82.7%、Claude Opus 4.7を約13ポイントリード。

AgenticSwarmBench： 300の人工検証タスク、19のエラー注入模擬サービス、完全なトレース監査。

SWE-bench Pro： Claude Opus 4.7が64.3%、GPT-5.5が58.6%。

GENERAL365： K-12知識範囲内の複雑推論ベンチマーク、365問すべて人工策展。

評価の落とし穴

Arenaはユーザー選好を反映。 技術能力だけではない。
ベンチマークスコア≠実世界での可用性。 64.3%は35.7%の失敗率を意味する。
キャッシュ汚染。 ベンチマーク問題で学習したモデルはスコアが水増しされる。

主要ソース：