C
ChaoBro

Предупреждение о 86% Галлюцинаций GPT-5.5: Интеллекта Моделей Достаточно, Но Как Насчёт Надёжности?

Предупреждение о 86% Галлюцинаций GPT-5.5: Интеллекта Моделей Достаточно, Но Как Насчёт Надёжности?

Вывод

GPT-5.5 — король бенчмарков апреля 2026: Terminal-Bench 82.7%, GDPval 84.9%, CyberGym 81.8%, комплексно опережая Claude Opus 4.7.

Но у него есть фатальный недостаток: на тесте частоты галлюцинаций AA-Omniscience 86% вопросов дают кажущиеся разумными, но фактически неверные ответы. Частота галлюцинаций Claude Opus 4.7 на том же тесте — 36%.

Это означает: «уверенно неправильные» ответы GPT-5.5 в 2.4 раза чаще, чем у Claude Opus 4.7. Если ваш рабочий процесс не допускает «уверенного вранья», эти данные важнее любого бенчмарка.

Измерения Тестирования

Terminal-Bench 2.0: Крупная Победа GPT-5.5

МетрикаGPT-5.5Claude Opus 4.7Разница
Terminal-Bench 2.082.7%69.4%+13.3%
GDPval (Анализ Данных)84.9%80.3%+4.6%
CyberGym (Безопасность)81.8%73.1%+8.7%

GPT-5.5 (кодовое имя “Spud”) — первая действительно перетренированная модель с GPT-4.5. OpenAI использовала 6 «фейковых релизов» для маскировки ресурсов, и когда нанесла удар, оторвалась на задачах терминальных операций, многошаговых агентов и автоматизации.

Частота Галлюцинаций AA-Omniscience: Claude Opus 4.7 Разгромил

Ключевой дизайн тестирования AA-Omniscience: задавать модели вопросы, на которые она «не должна знать ответ» (выдуманные события, вымышленные люди), и посмотреть, будет ли она «уверенно выдумывать ответы».

  • GPT-5.5: 86% частота галлюцинаций — в большинстве случаев выдумывает звучащий разумно ответ
  • Claude Opus 4.7: 36% частота галлюцинаций — более склонен сказать «я не знаю»

Этот разрыв — не «небольшое улучшение», а разница поколений. Для сценариев, требующих высокой надёжности (медицина, финансы, право), 86% частота галлюцинаций неприемлема.

Рекомендации по Выбору

Выбирайте GPT-5.5, если:

  • Ваша ключевая потребность — терминальные операции и задачи автоматизации
  • Вам нужна сильнейшая способность многошаговых агентов
  • Ваш рабочий процесс имеет этап «человеческого ревью», который может ловить галлюцинации
  • Бюджет не является основным ограничением

Выбирайте Claude Opus 4.7, если:

  • Вам нужны ответы высокой надёжности (финансы, право, медицина)
  • Вывод модели напрямую влияет на принятие решений в вашем рабочем процессе
  • Вам нужна лучшая способность вызова инструментов MCP
  • Вы цените «знание того, чего не знаешь»

Истина, Которую Игнорируют

Соревнование OpenAI и Anthropic вступило в эпоху «специализации». GPT-5.5 — предельный «исполнитель» — терминальные операции, многошаговые задачи, потоки автоматизации, он лучше вас во всём. Но он также и предельный «уверенный» — даже будучи неправым, говорит уверенно.

Claude Opus 4.7 — более «осторожный» участник — может не быть первым на каждом бенчмарке, но его ответы более надёжны.

Ключевой вопрос: вашему сценарию нужна «сила исполнения» или «надёжность»?

Если ваш рабочий процесс допускает определённый уровень ошибок (с этапами ревью, механизмами отката), преимущество производительности GPT-5.5 стоит рассмотреть. Если ваш вывод напрямую влияет на решения без этапа ревью, низкая частота галлюцинаций Claude Opus 4.7 — лучшая страховка.