Chatbot Arena апрель 2026: Anthropic занимает первые четыре места, разрыв с open-source сокращается

Chatbot Arena апрель 2026: Anthropic занимает первые четыре места, разрыв с open-source сокращается

По состоянию на конец апреля 2026 года последний рейтинг LMSYS Chatbot Arena показывает четкую картину: Anthropic лидирует одновременно в текстовом и кодовом треках, но лагерь open-source ускоряет свое продвижение.

Текстовый Топ-10: Anthropic занимает четыре места

РангМодельБаллЛаборатория
1claude-opus-4-7-thinking1503 ±8Anthropic
2claude-opus-4-6-thinking1501 ±5Anthropic
3claude-opus-4-61496 ±5Anthropic
4claude-opus-4-71493 ±7Anthropic
5gemini-3.1-pro-preview1493 ±5Google
6muse-spark1489 ±7Meta
7gpt-5.5-high1488 ±10OpenAI
8gemini-3-pro1486 ±4Google
9grok-4.20-beta11481 ±5xAI
10gpt-5.4-high1479 ±6OpenAI

Четыре ключевых наблюдения:

Режим thinking от Anthropic показывает явное преимущество. claude-opus-4-7-thinking лидирует с 1503 баллами, на 10 пунктов выше версии без thinking (1493).

OpenAI GPT-5.5 не оправдывает ожиданий. gpt-5.5-high занимает седьмое место с 1488 баллами, отставая от всех вариантов Claude и Gemini 3.1 Pro.

Meta muse-spark впервые входит в топ-6. С результатом 1489 превосходит GPT-5.5 и становится моделью с наивысшим рейтингом среди не-Anthropic/Google моделей.

Модели Google стабильны, но без прорывов. gemini-3.1-pro-preview (1493) и gemini-3-pro (1486) занимают пятое и восьмое места.

Кодовый рейтинг: доминирование Anthropic ещё сильнее

GLM-5.1 и Kimi-K2.6 с результатами 1534 и 1529 соответственно представляют лучшие результаты китайских моделей в кодовом Arena.

Прогресс open-source

Разрыв между open-source #1 и closed-source #1 сократился с 50+ баллов год назад до 15-20 баллов.


Основные источники: