OpenAI выпустила GPT-5.5 23 апреля — это четвёртая крупная модель передового уровня в первом квартале 2026 года. Всего семью днями ранее Claude Opus 4.7 от Anthropic (выпущен 16 апреля) возглавил несколько рейтингов. Противостояние двух моделей отражает столкновение философий дизайна: GPT-5.5 стремится к максимальной эффективности в терминальных операциях и общем рассуждении, а Claude Opus 4.7 сохраняет преимущество в программной инженерии и длинных цепочках задач.
Сравнение бенчмарков
Официальные результаты GPT-5.5, опубликованные OpenAI (включая категории, где модель проиграла):
| Бенчмарк | GPT-5.5 | Claude Opus 4.7 | Примечание |
|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% | Терминальные операции и системные задачи |
| GDPval | 84.9% | 80.3% | Общая валидация данных |
| CyberGym | 81.8% | 73.1% | Сценарии кибербезопасности |
| SWE-bench Pro | 64.3% | 64.3% | Задачи программной инженерии (ничья) |
| HLE | 41.4% | 46.9% | Сложное рассуждение |
| MRCR @ 1M | 74% | 32.2% | Понимание миллионного контекста |
GPT-5.5 лидирует на 13 пунктов в Terminal-Bench, что соответствует направлению дизайна «лучше работает с инструментами». Однако Claude Opus 4.7 имеет явное преимущество в HLE и миллионном контексте — разрыв в MRCR @ 1M (74% против 32,2%) указывает на значительно большую практическую разницу.
Примечательно, что OpenAI при выпуске GPT-5.5 активно указала проекты, в которых модель проиграла (Opus 4.7 и ограниченная версия Claude Mythos Preview лидируют в отдельных категориях). Такой уровень прозрачности ранее был необычным.
Сравнение реальных навыков программирования
Тесты сообщества (одинаковые промпты, одинаковые проекты, три реальных сборки):
- GPT-5.5: 73% решения за 20 часов задач программной инженерии, более высокая эффективность генерации терминальных команд и отладки, меньше токенов на задачу
- Claude Opus 4.7: более стабильная работа с большими кодовыми базами, многошаговым рефакторингом, ревью кода и анализом безопасности
Обе модели поддерживают контекстное окно в 1 миллион токенов, но Claude сохраняет лучшее удержание информации и точность ссылок при такой длине.
Цена и доступность
GPT-5.5 доступен для пользователей Plus, Pro, Business и Enterprise, задержка совпадает с GPT-5.4. Claude Opus 4.7 доступен через план Claude Max за $200/месяц. Цена GPT-5.5 Pro API составляет около $180 за миллион выходных токенов, Gemini 3.1 Pro того же уровня — около $12 за миллион токенов.
Что выбрать
- Терминальные операции, автоматизация DevOps, кибербезопасность: GPT-5.5, значительное преимущество на Terminal-Bench и CyberGym
- Масштабная программная инженерия, ревью кода, анализ безопасности: Claude Opus 4.7, более надёжный, лидер на SWE-bench Pro и HLE
- Анализ миллионного контекста: результат MRCR @ 1M у GPT-5.5 значительно превосходит Opus 4.7
- Разработчики с ограниченным бюджетом: GPT-5.5 через план Plus ($20/месяц) обеспечивает более высокую экономическую эффективность
Ландшафт моделей меняется еженедельно. Сегодняшний «лучший» может быть превзойдён через семь дней, но дифференцированные преимущества обеих моделей уже очевидны: GPT-5.5 силён в терминальных операциях и эффективности общего рассуждения, Claude Opus 4.7 лидирует в глубине инженерии и качестве длинного контекста.