Предупреждение о 86% Галлюцинаций GPT-5.5: Интеллекта Моделей Достаточно, Но Как Насчёт Надёжности?

Вывод

GPT-5.5 — король бенчмарков апреля 2026: Terminal-Bench 82.7%, GDPval 84.9%, CyberGym 81.8%, комплексно опережая Claude Opus 4.7.

Но у него есть фатальный недостаток: на тесте частоты галлюцинаций AA-Omniscience 86% вопросов дают кажущиеся разумными, но фактически неверные ответы. Частота галлюцинаций Claude Opus 4.7 на том же тесте — 36%.

Это означает: «уверенно неправильные» ответы GPT-5.5 в 2.4 раза чаще, чем у Claude Opus 4.7. Если ваш рабочий процесс не допускает «уверенного вранья», эти данные важнее любого бенчмарка.

Измерения Тестирования

Terminal-Bench 2.0: Крупная Победа GPT-5.5

Метрика	GPT-5.5	Claude Opus 4.7	Разница
Terminal-Bench 2.0	82.7%	69.4%	+13.3%
GDPval (Анализ Данных)	84.9%	80.3%	+4.6%
CyberGym (Безопасность)	81.8%	73.1%	+8.7%

GPT-5.5 (кодовое имя “Spud”) — первая действительно перетренированная модель с GPT-4.5. OpenAI использовала 6 «фейковых релизов» для маскировки ресурсов, и когда нанесла удар, оторвалась на задачах терминальных операций, многошаговых агентов и автоматизации.

Частота Галлюцинаций AA-Omniscience: Claude Opus 4.7 Разгромил

Ключевой дизайн тестирования AA-Omniscience: задавать модели вопросы, на которые она «не должна знать ответ» (выдуманные события, вымышленные люди), и посмотреть, будет ли она «уверенно выдумывать ответы».

GPT-5.5: 86% частота галлюцинаций — в большинстве случаев выдумывает звучащий разумно ответ
Claude Opus 4.7: 36% частота галлюцинаций — более склонен сказать «я не знаю»

Этот разрыв — не «небольшое улучшение», а разница поколений. Для сценариев, требующих высокой надёжности (медицина, финансы, право), 86% частота галлюцинаций неприемлема.

Истина, Которую Игнорируют

Соревнование OpenAI и Anthropic вступило в эпоху «специализации». GPT-5.5 — предельный «исполнитель» — терминальные операции, многошаговые задачи, потоки автоматизации, он лучше вас во всём. Но он также и предельный «уверенный» — даже будучи неправым, говорит уверенно.

Claude Opus 4.7 — более «осторожный» участник — может не быть первым на каждом бенчмарке, но его ответы более надёжны.

Ключевой вопрос: вашему сценарию нужна «сила исполнения» или «надёжность»?

Если ваш рабочий процесс допускает определённый уровень ошибок (с этапами ревью, механизмами отката), преимущество производительности GPT-5.5 стоит рассмотреть. Если ваш вывод напрямую влияет на решения без этапа ревью, низкая частота галлюцинаций Claude Opus 4.7 — лучшая страховка.

Предупреждение о 86% Галлюцинаций GPT-5.5: Интеллекта Моделей Достаточно, Но Как Насчёт Надёжности?

Вывод

Измерения Тестирования

Terminal-Bench 2.0: Крупная Победа GPT-5.5

Частота Галлюцинаций AA-Omniscience: Claude Opus 4.7 Разгромил

Рекомендации по Выбору

Выбирайте GPT-5.5, если:

Выбирайте Claude Opus 4.7, если:

Истина, Которую Игнорируют

Вывод

Измерения Тестирования

Terminal-Bench 2.0: Крупная Победа GPT-5.5

Частота Галлюцинаций AA-Omniscience: Claude Opus 4.7 Разгромил

Рекомендации по Выбору

Выбирайте GPT-5.5, если:

Выбирайте Claude Opus 4.7, если:

Истина, Которую Игнорируют

Похожие материалы

17 дней, 4 модели: гонка вооружений китайского ИИ с открытым кодом и перекройка ландшафта производительности

Hermes Agent vs OpenClaw: Как выбрать правильный фреймворк AI-агентов в 2026 году?

Загрузки Codex碾压 Claude Code: экосистемическая битва OpenAI с функцией «Migrate to Codex»