Вывод
MLE-Bench напрямую измеряет способность AI выполнять реальные задачи ML-инженерии. GPT-5.5 набирает 36%, на 13 п.п. выше GPT-5.4 (23%). AI теперь может автономно完成约三分之一标准ML工程任务。
Результаты
| Модель | MLE-Bench | Улучшение |
|---|---|---|
| GPT-5.5 | 36% | — |
| GPT-5.4 | 23% | базовый |
В сочетании с Terminal-Bench 2.0 (82.7%):
- Навыки CLI зрелые: 82.7% — замена junior-инженера
- Понимание ML отстаёт: 36% — долгий путь до понимания сути ML-задач
- Проблема в знаниях, не в инструментах: Низкий балл MLE-Bench отражает пробелы в доменных знаниях ML
Рекомендации
| Роль | Применение |
|---|---|
| Дата-сайентисты | Автоматизация обработки данных, экономия 30-50% времени |
| ML-инженеры | Автоматизированные ML-пайплайны, выбор моделей — за человеком |
| Техлиды | 36% автономности — «AI заменяет ML-инженеров» пока рано |