Вывод
GPT-5.5 Pro набирает 159 баллов в ECI (Epoch Capabilities Index) — комплексном показателе, разработанном Epoch AI, который объединяет 37 различных бенчмарков в единую оценку, причём более сложные тесты получают больший вес. По сравнению с предыдущим рекордом GPT-5.4 Pro, 159 баллов标志着 поколенческий скачок.
На практике GPT-5.5 достигает 36% в MLE-Bench (тест инженерных навыков машинного обучения, у GPT-5.4 — 23%), 78,7% в OSWorld (задачи управления компьютером), превосходя Claude Opus 4.7. Показатель успешности решения 20-часовых инженерных задач — 73%, что делает его сильнейшей моделью для программирования на данный момент.
Измерения тестирования
Интерпретация комплексного индекса ECI
Главное преимущество ECI — устойчивость к накрутке на простых бенчмарках. Вес смещён в сторону более сложных задач, поэтому 159 баллов отражает реальное улучшение на по-настоящему сложных задачах, а не переобучение на бенчмарках.
FrontierMath (математическое推理前沿) — важная составляющая ECI. GPT-5.5 Pro продемонстрировал беспрецедентные способности к рассуждению на этом бенчмарке, решая нерешённые или крайне сложные задачи исследовательского уровня.
Программирование и агентные возможности
| Бенчмарк | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 |
|---|---|---|---|
| MLE-Bench | 36% | 23% | - |
| OSWorld | 78,7% | - | Ниже 78,7% |
| CyberGym | 81,8% | - | - |
| SWE-bench (20ч) | 73% | - | - |
GPT-5.5 сохраняет ту же задержку на токен, что и GPT-5.4, но использует значительно меньше токенов для выполнения тех же задач Codex. Цена API: $5/млн входных токенов, $30/млн выходных, контекстное окно — 1 миллион токенов.
Интеллектуальная работа и исследования
GDPval охватывает 44 сценария профессиональной интеллектуальной работы. GPT-5.5 достигает показателя победы или ничьей 84,9% (GPT-5.4 — 83,0%, Claude Opus 4.7 — 80,3%). В GeneBench (многоэтапный анализ генетических и количественных биологических данных) — новом внутреннем тесте OpenAI — GPT-5.5 также лидирует.
Рекомендации по выбору
- Программирование/разработка агентов: GPT-5.5 обладает сильнейшими совокупными навыками программирования, лидируя в MLE-Bench и SWE-bench
- Научные исследования/математическое推理: GPT-5.5 Pro лидирует в FrontierMath и ECI, подходит для сложных исследовательских сценариев
- Контроль затрат: Эффективность использования токенов у GPT-5.5 выше, чем у 5.4, те же задачи выполняются с меньшим расходом
- Корпоративная интеллектуальная работа: 84,9% побед в GDPval, подходит для анализа документов и разработки стратегий