GPT-5.5 Pro набирает 159 баллов в ECI: комплексный индекс превосходит все предыдущие модели

Вывод

GPT-5.5 Pro набирает 159 баллов в ECI (Epoch Capabilities Index) — комплексном показателе, разработанном Epoch AI, который объединяет 37 различных бенчмарков в единую оценку, причём более сложные тесты получают больший вес. По сравнению с предыдущим рекордом GPT-5.4 Pro, 159 баллов标志着 поколенческий скачок.

На практике GPT-5.5 достигает 36% в MLE-Bench (тест инженерных навыков машинного обучения, у GPT-5.4 — 23%), 78,7% в OSWorld (задачи управления компьютером), превосходя Claude Opus 4.7. Показатель успешности решения 20-часовых инженерных задач — 73%, что делает его сильнейшей моделью для программирования на данный момент.

Измерения тестирования

Интерпретация комплексного индекса ECI

Главное преимущество ECI — устойчивость к накрутке на простых бенчмарках. Вес смещён в сторону более сложных задач, поэтому 159 баллов отражает реальное улучшение на по-настоящему сложных задачах, а не переобучение на бенчмарках.

FrontierMath (математическое推理前沿) — важная составляющая ECI. GPT-5.5 Pro продемонстрировал беспрецедентные способности к рассуждению на этом бенчмарке, решая нерешённые или крайне сложные задачи исследовательского уровня.

Программирование и агентные возможности

Бенчмарк	GPT-5.5	GPT-5.4	Claude Opus 4.7
MLE-Bench	36%	23%	-
OSWorld	78,7%	-	Ниже 78,7%
CyberGym	81,8%	-	-
SWE-bench (20ч)	73%	-	-

GPT-5.5 сохраняет ту же задержку на токен, что и GPT-5.4, но использует значительно меньше токенов для выполнения тех же задач Codex. Цена API: $5/млн входных токенов, $30/млн выходных, контекстное окно — 1 миллион токенов.

Интеллектуальная работа и исследования

GDPval охватывает 44 сценария профессиональной интеллектуальной работы. GPT-5.5 достигает показателя победы или ничьей 84,9% (GPT-5.4 — 83,0%, Claude Opus 4.7 — 80,3%). В GeneBench (многоэтапный анализ генетических и количественных биологических данных) — новом внутреннем тесте OpenAI — GPT-5.5 также лидирует.

GPT-5.5 Pro набирает 159 баллов в ECI: комплексный индекс превосходит все предыдущие модели

Вывод

Измерения тестирования

Интерпретация комплексного индекса ECI

Программирование и агентные возможности

Интеллектуальная работа и исследования

Рекомендации по выбору

Основные источники

Вывод

Измерения тестирования

Интерпретация комплексного индекса ECI

Программирование и агентные возможности

Интеллектуальная работа и исследования

Рекомендации по выбору

Основные источники

Похожие материалы

Kimi K2.6 возглавляет Design Arena: Moonshot AI превосходит все американские модели в 3D-дизайне

Обзор Qwen 3.6 Max BS Benchmark: способность к антигаллюцинациям превосходит все модели OpenAI

Бенчмарк цепочечного рассуждения Oxford/LLNL: GPT 95,7% по отдельности, коллапс до 9,83% в цепочке