GPT-5.5 Pro набирает 159 баллов в ECI: комплексный индекс превосходит все предыдущие модели

GPT-5.5 Pro набирает 159 баллов в ECI: комплексный индекс превосходит все предыдущие модели

Вывод

GPT-5.5 Pro набирает 159 баллов в ECI (Epoch Capabilities Index) — комплексном показателе, разработанном Epoch AI, который объединяет 37 различных бенчмарков в единую оценку, причём более сложные тесты получают больший вес. По сравнению с предыдущим рекордом GPT-5.4 Pro, 159 баллов标志着 поколенческий скачок.

На практике GPT-5.5 достигает 36% в MLE-Bench (тест инженерных навыков машинного обучения, у GPT-5.4 — 23%), 78,7% в OSWorld (задачи управления компьютером), превосходя Claude Opus 4.7. Показатель успешности решения 20-часовых инженерных задач — 73%, что делает его сильнейшей моделью для программирования на данный момент.

Измерения тестирования

Интерпретация комплексного индекса ECI

Главное преимущество ECI — устойчивость к накрутке на простых бенчмарках. Вес смещён в сторону более сложных задач, поэтому 159 баллов отражает реальное улучшение на по-настоящему сложных задачах, а не переобучение на бенчмарках.

FrontierMath (математическое推理前沿) — важная составляющая ECI. GPT-5.5 Pro продемонстрировал беспрецедентные способности к рассуждению на этом бенчмарке, решая нерешённые или крайне сложные задачи исследовательского уровня.

Программирование и агентные возможности

БенчмаркGPT-5.5GPT-5.4Claude Opus 4.7
MLE-Bench36%23%-
OSWorld78,7%-Ниже 78,7%
CyberGym81,8%--
SWE-bench (20ч)73%--

GPT-5.5 сохраняет ту же задержку на токен, что и GPT-5.4, но использует значительно меньше токенов для выполнения тех же задач Codex. Цена API: $5/млн входных токенов, $30/млн выходных, контекстное окно — 1 миллион токенов.

Интеллектуальная работа и исследования

GDPval охватывает 44 сценария профессиональной интеллектуальной работы. GPT-5.5 достигает показателя победы или ничьей 84,9% (GPT-5.4 — 83,0%, Claude Opus 4.7 — 80,3%). В GeneBench (многоэтапный анализ генетических и количественных биологических данных) — новом внутреннем тесте OpenAI — GPT-5.5 также лидирует.

Рекомендации по выбору

  • Программирование/разработка агентов: GPT-5.5 обладает сильнейшими совокупными навыками программирования, лидируя в MLE-Bench и SWE-bench
  • Научные исследования/математическое推理: GPT-5.5 Pro лидирует в FrontierMath и ECI, подходит для сложных исследовательских сценариев
  • Контроль затрат: Эффективность использования токенов у GPT-5.5 выше, чем у 5.4, те же задачи выполняются с меньшим расходом
  • Корпоративная интеллектуальная работа: 84,9% побед в GDPval, подходит для анализа документов и разработки стратегий

Основные источники