Вывод
GPT-5.5 — король бенчмарков апреля 2026: Terminal-Bench 82.7%, GDPval 84.9%, CyberGym 81.8%, комплексно опережая Claude Opus 4.7.
Но у него есть фатальный недостаток: на тесте частоты галлюцинаций AA-Omniscience 86% вопросов дают кажущиеся разумными, но фактически неверные ответы. Частота галлюцинаций Claude Opus 4.7 на том же тесте — 36%.
Это означает: «уверенно неправильные» ответы GPT-5.5 в 2.4 раза чаще, чем у Claude Opus 4.7. Если ваш рабочий процесс не допускает «уверенного вранья», эти данные важнее любого бенчмарка.
Измерения Тестирования
Terminal-Bench 2.0: Крупная Победа GPT-5.5
| Метрика | GPT-5.5 | Claude Opus 4.7 | Разница |
|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% | +13.3% |
| GDPval (Анализ Данных) | 84.9% | 80.3% | +4.6% |
| CyberGym (Безопасность) | 81.8% | 73.1% | +8.7% |
GPT-5.5 (кодовое имя “Spud”) — первая действительно перетренированная модель с GPT-4.5. OpenAI использовала 6 «фейковых релизов» для маскировки ресурсов, и когда нанесла удар, оторвалась на задачах терминальных операций, многошаговых агентов и автоматизации.
Частота Галлюцинаций AA-Omniscience: Claude Opus 4.7 Разгромил
Ключевой дизайн тестирования AA-Omniscience: задавать модели вопросы, на которые она «не должна знать ответ» (выдуманные события, вымышленные люди), и посмотреть, будет ли она «уверенно выдумывать ответы».
- GPT-5.5: 86% частота галлюцинаций — в большинстве случаев выдумывает звучащий разумно ответ
- Claude Opus 4.7: 36% частота галлюцинаций — более склонен сказать «я не знаю»
Этот разрыв — не «небольшое улучшение», а разница поколений. Для сценариев, требующих высокой надёжности (медицина, финансы, право), 86% частота галлюцинаций неприемлема.
Рекомендации по Выбору
Выбирайте GPT-5.5, если:
- Ваша ключевая потребность — терминальные операции и задачи автоматизации
- Вам нужна сильнейшая способность многошаговых агентов
- Ваш рабочий процесс имеет этап «человеческого ревью», который может ловить галлюцинации
- Бюджет не является основным ограничением
Выбирайте Claude Opus 4.7, если:
- Вам нужны ответы высокой надёжности (финансы, право, медицина)
- Вывод модели напрямую влияет на принятие решений в вашем рабочем процессе
- Вам нужна лучшая способность вызова инструментов MCP
- Вы цените «знание того, чего не знаешь»
Истина, Которую Игнорируют
Соревнование OpenAI и Anthropic вступило в эпоху «специализации». GPT-5.5 — предельный «исполнитель» — терминальные операции, многошаговые задачи, потоки автоматизации, он лучше вас во всём. Но он также и предельный «уверенный» — даже будучи неправым, говорит уверенно.
Claude Opus 4.7 — более «осторожный» участник — может не быть первым на каждом бенчмарке, но его ответы более надёжны.
Ключевой вопрос: вашему сценарию нужна «сила исполнения» или «надёжность»?
Если ваш рабочий процесс допускает определённый уровень ошибок (с этапами ревью, механизмами отката), преимущество производительности GPT-5.5 стоит рассмотреть. Если ваш вывод напрямую влияет на решения без этапа ревью, низкая частота галлюцинаций Claude Opus 4.7 — лучшая страховка.