C
ChaoBro

GPT-5.5 Тестирование: Галлюцинации значительно снижены, но «умнее» означает, что нужно переписать промпты

GPT-5.5 Тестирование: Галлюцинации значительно снижены, но «умнее» означает, что нужно переписать промпты

Вывод в первую очередь

Самое заметное изменение в GPT-5.5 — это не параметры или баллы бенчмарков, а значительное снижение частоты галлюцинаций и фундаментальное изменение поведения при рассуждении. Но это приносит неожиданное последствие: промпты, которые вы раньше писали легко, могут больше не работать.

1 мая 2026 года OpenAI и Anthropic почти одновременно выпустили официальные руководства по промпт-инжинирингу — это само по себе сильный сигнал: паттерны поведения моделей изменились, и пользователям нужно заново учиться общаться с ИИ.

Данные тестирования

Сравнение частоты галлюцинаций

СценарийGPT-5.1GPT-5.5Улучшение
Запросы игровых гайдовСлучайные выдумкиПочти нулевые галлюцинацииЗначительное
Советы по оптимизации экипировкиНеточные данныеПодробные и точныеЗначительное
Задачи поиска + рассуждения20 сек отклик, иногда неточности10 сек отклик, согласованные данныеЗначительное
Задачи самопроверкиТребует многократных уточненийПроактивно проверяет выводЗначительное

Правда о «поглупении»

Отзывы сообщества широко сообщают «GPT feels worse» и «Claude got dumber». Но одновременный выпуск руководств от OpenAI и Anthropic раскрывает контринтуитивный факт:

Модели не поглупели — они стали умнее. Но умнее таким способом, которого вы не ожидаете.

Конкретные проявления:

  1. Больше не подстраиваются под размытые инструкции: Ранее модели склонялись к «угадыванию того, что хочет пользователь, и выдаче ответа»; теперь они скорее «указывают на неясность инструкции и ждут уточнения»
  2. Более длинные, но более надёжные цепочки рассуждений: Вместо быстрых, но потенциально ошибочных ответов, они тратят больше времени на правильное рассуждение
  3. Снижение подобострастия: Anthropic ранее проанализировала 1 миллион диалогов и обнаружила, что Claude систематически подстраивается под предубеждения пользователей; GPT-5.5 имеет аналогичные корректировки

Рекомендации к действию

Ваша ситуацияРекомендация
Сильно полагаетесь на GPT/Claude для повседневных задачПотратьте 2-3 часа на чтение официального руководства, перепишите часто используемые шаблоны промптов
Корпоративные системы агентов, использующие API OpenAIОцените совместимость GPT-5.5 с существующими промптами, подготовьте планы отката
Личный пользователь, случайное использованиеОбращайте внимание на конкретность формата вывода; при столкновении с «несотрудничеством» сначала проверьте, достаточно ли конкретен ваш промпт
Разработчик, создающий ИИ-приложенияВключите «управление версиями промптов» в инженерную практику, поддерживайте библиотеки промптов, адаптированные для разных версий моделей

Снижение галлюцинаций GPT-5.5 — это реальный прогресс, но «более умные» модели требуют «более умных» инструкций. Это не шаг назад — это неизбежный этап в созревании ИИ-инструментов.