Полупериод жизни ярлыка «лучшая модель ИИ»: что 5 дней говорят о конкуренции моделей в 2026 году

20 апреля технологический блогер Mrwhosetheboss написал: «Claude > Gemini > ChatGPT. Сейчас差距很大». Всего пять дней спустя OpenAI выпустила GPT-5.5, прыгнув с 69,4% (Claude) до 82,7% на Terminal-Bench, и лидер на нескольких бенчмарках сменился.

Фактический срок годности ярлыка «лучшая модель» в 2026 году — пять дней.

Темп выпуска моделей в Q1

В первом квартале 2026 года плотность выпуска основных передовых моделей была беспрецедентной:

Январь: Google Gemini 2.5 Pro
Февраль: Claude Opus 4.6
16 апреля: Claude Opus 4.7
23 апреля: GPT-5.5

Кроме того, DeepSeek V4, Moonshot Kimi K2.5, Mistral Medium 3, Qwen 3.1 и другие модели с открытым и полуоткрытым исходным кодом были выпущены или обновлены за тот же период. В среднем крупное обновление или выпуск модели происходило почти каждые 7 дней.

Эффект «ротации» в рейтингах

Сравнение результатов основных оценок за последние три месяца выявляет чёткую закономерность:

Временная точка	Лидер Terminal-Bench	Лидер SWE-bench Pro	Лидер HLE
Март	Claude Opus 4.6	Claude Opus 4.6	Claude Opus 4.6
Середина апреля	Claude Opus 4.7	Claude Opus 4.7	Claude Opus 4.7
Конец апреля	GPT-5.5	Claude Opus 4.7	Claude Opus 4.7

GPT-5.5 значительно превзошёл Opus 4.7 на Terminal-Bench, но не смог обогнать его на SWE-bench Pro и HLE. Это показывает, что разные модели уже построили свои собственные «крепости» в разных измерениях — ни одна модель не может удерживать первое место во всех оценках.

Почему ярлык «лучший» теряет силу

Есть две основные причины.

Во-первых, способности моделей сходятся. По мере схождения тренировочных данных, архитектур и методов оптимизации абсолютный разрыв между флагманскими моделями сокращается. Разница между GPT-5.5 и Opus 4.7 больше заключается в «разных областях силы», а не в «полном доминировании».

Во-вторых, сами бенчмарки быстро итерируются. Terminal-Bench уже достиг версии 2.0, и появляются новые оценки. Модель может лидировать в бенчмарках этого месяца, а затем изменить рейтинг при выпуске новых бенчмарков в следующем месяце.

Практическое значение для пользователей

Если вы выбираете модель ИИ, вместо вопроса «какая лучшая» задайте «какая лучше всего подходит для моей работы»:

Терминальные операции/DevOps: GPT-5.5 (Terminal-Bench 82,7%)
Программная инженерия/рефакторинг кода: Claude Opus 4.7 (лидер на SWE-bench Pro)
Сложное рассуждение: Claude Opus 4.7 (HLE 46,9%)
Экономическая эффективность/ежедневное использование: Claude Sonnet или бесплатный уровень Gemini

В эпоху, когда итерация моделей происходит еженедельно, срок действия заявлений о «лучшей модели» сокращается. Но дифференцированные преимущества моделей формируются — понимание этого важнее, чем погоня за рейтингами.

Темп выпуска моделей в Q1

Эффект «ротации» в рейтингах

Почему ярлык «лучший» теряет силу

Практическое значение для пользователей

Основные источники

Похожие материалы

Kimi K2.6 возглавляет Design Arena: Moonshot AI превосходит все американские модели в 3D-дизайне

Обзор Qwen 3.6 Max BS Benchmark: способность к антигаллюцинациям превосходит все модели OpenAI

Бенчмарк цепочечного рассуждения Oxford/LLNL: GPT 95,7% по отдельности, коллапс до 9,83% в цепочке