GPT-5.5 MLE-Bench 評価:AIのMLエンジニアリング実力

GPT-5.5 MLE-Bench 評価:AIのMLエンジニアリング実力

結論

MLE-BenchはAIシステムの実際のMLエンジニアリングタスク完了能力を直接測定する。GPT-5.5は36%を達成し、GPT-5.4の23%から13ポイント向上。AIは標準MLエンジニアリングタスクの約3分の1を自律完了できるが、残り3分の2は人間の介入が必要。

GPT-5.5 のパフォーマンス

モデルMLE-Bench改善
GPT-5.536%
GPT-5.423%ベースライン

Terminal-Bench 2.0 82.7%と組み合わせると:

  • CLI能力は成熟:82.7%で junior エンジニアの代替が可能
  • ML理解は追いつき中:36%でMLタスクの本質理解にはまだ課題
  • ギャップは知識而非工具:低いMLE-BenchスコアはMLドメイン知識の不足を反映

選択ガイド

役割活用法
データサイエンティストデータ処理とベースラインモデル訓練を自動化、反復作業を30-50%削減
MLエンジニア自動化MLパイプラインを構築、モデル選択は人間が審査
テクニカルリード36%自律完了率は「AIがMLエンジニアを代替」には時期尚早

出典