GPT-5.5 MLE-Bench: Реальный уровень AI в машинном обучении

Вывод

MLE-Bench напрямую измеряет способность AI выполнять реальные задачи ML-инженерии. GPT-5.5 набирает 36%, на 13 п.п. выше GPT-5.4 (23%). AI теперь может автономно完成约三分之一标准ML工程任务。

Результаты

Модель	MLE-Bench	Улучшение
GPT-5.5	36%	—
GPT-5.4	23%	базовый

В сочетании с Terminal-Bench 2.0 (82.7%):

Навыки CLI зрелые: 82.7% — замена junior-инженера
Понимание ML отстаёт: 36% — долгий путь до понимания сути ML-задач
Проблема в знаниях, не в инструментах: Низкий балл MLE-Bench отражает пробелы в доменных знаниях ML

Рекомендации

Роль	Применение
Дата-сайентисты	Автоматизация обработки данных, экономия 30-50% времени
ML-инженеры	Автоматизированные ML-пайплайны, выбор моделей — за человеком
Техлиды	36% автономности — «AI заменяет ML-инженеров» пока рано

Вывод

Результаты

Рекомендации

Источники

Похожие материалы

Kimi K2.6 возглавляет Design Arena: Moonshot AI превосходит все американские модели в 3D-дизайне

Обзор Qwen 3.6 Max BS Benchmark: способность к антигаллюцинациям превосходит все модели OpenAI

Бенчмарк цепочечного рассуждения Oxford/LLNL: GPT 95,7% по отдельности, коллапс до 9,83% в цепочке