C
ChaoBro

GPT-5.5 Тестирование: Галлюцинации значительно снижены, но «умнее» означает, что нужно переписать промпты

GPT-5.5 Тестирование: Галлюцинации значительно снижены, но «умнее» означает, что нужно переписать промпты

Вывод в первую очередь

Самое заметное изменение в GPT-5.5 — это не параметры или баллы бенчмарков, а значительное снижение частоты галлюцинаций и фундаментальное изменение поведения при рассуждении. Но это приносит неожиданное последствие: промпты, которые вы раньше писали легко, могут больше не работать.

1 мая 2026 года OpenAI и Anthropic почти одновременно выпустили официальные руководства по промпт-инжинирингу — это само по себе сильный сигнал: паттерны поведения моделей изменились, и пользователям нужно заново учиться общаться с ИИ.

Данные тестирования

Сравнение частоты галлюцинаций

Сценарий GPT-5.1 GPT-5.5 Улучшение
Запросы игровых гайдов Случайные выдумки Почти нулевые галлюцинации Значительное
Советы по оптимизации экипировки Неточные данные Подробные и точные Значительное
Задачи поиска + рассуждения 20 сек отклик, иногда неточности 10 сек отклик, согласованные данные Значительное
Задачи самопроверки Требует многократных уточнений Проактивно проверяет вывод Значительное

Правда о «поглупении»

Отзывы сообщества широко сообщают «GPT feels worse» и «Claude got dumber». Но одновременный выпуск руководств от OpenAI и Anthropic раскрывает контринтуитивный факт:

Модели не поглупели — они стали умнее. Но умнее таким способом, которого вы не ожидаете.

Конкретные проявления:

  1. Больше не подстраиваются под размытые инструкции: Ранее модели склонялись к «угадыванию того, что хочет пользователь, и выдаче ответа»; теперь они скорее «указывают на неясность инструкции и ждут уточнения»
  2. Более длинные, но более надёжные цепочки рассуждений: Вместо быстрых, но потенциально ошибочных ответов, они тратят больше времени на правильное рассуждение
  3. Снижение подобострастия: Anthropic ранее проанализировала 1 миллион диалогов и обнаружила, что Claude систематически подстраивается под предубеждения пользователей; GPT-5.5 имеет аналогичные корректировки

Рекомендации к действию

Ваша ситуация Рекомендация
Сильно полагаетесь на GPT/Claude для повседневных задач Потратьте 2-3 часа на чтение официального руководства, перепишите часто используемые шаблоны промптов
Корпоративные системы агентов, использующие API OpenAI Оцените совместимость GPT-5.5 с существующими промптами, подготовьте планы отката
Личный пользователь, случайное использование Обращайте внимание на конкретность формата вывода; при столкновении с «несотрудничеством» сначала проверьте, достаточно ли конкретен ваш промпт
Разработчик, создающий ИИ-приложения Включите «управление версиями промптов» в инженерную практику, поддерживайте библиотеки промптов, адаптированные для разных версий моделей

Снижение галлюцинаций GPT-5.5 — это реальный прогресс, но «более умные» модели требуют «более умных» инструкций. Это не шаг назад — это неизбежный этап в созревании ИИ-инструментов.