C
ChaoBro

Перетряска рейтинга Code Arena: GLM-5.1 обходит GPT-5.5 High, китайские модели доминируют в кодировании

Перетряска рейтинга Code Arena: GLM-5.1 обходит GPT-5.5 High, китайские модели доминируют в кодировании

Ключевые данные

Последний рейтинг Code Arena выявил значительный сдвиг в ландшафте кодирования. Среди 46 оцениваемых моделей агентного кодирования китайские модели занимают самые заметные позиции:

РангМодельКод Code Arena
1GLM-5.1~1535+
2Kimi K2.6~1520+
3MiMo-V2.5-Pro~1510+
5GLM-5.1 (подтверждено)1535
9GPT-5.5 High1500

Ключевой факт: Результат GLM-5.1 в Code Arena (1535) явно превзошёл GPT-5.5 High (1500), показав особенно высокие результаты в задачах агентного кодирования и веб-разработки.

Структура трёх китайских лидеров в кодировании

Объединяя данные из нескольких источников, китайские модели сформировали структуру «три лидера плюс преследователи» в кодировании:

GLM-5.1: Последняя модель Zhipu AI, выделяющаяся в Code Arena. Ранее Zhipu публично опубликовала блог-пост с анализом проблем масштабирования, возникших при обучении GLM-5, откровенно раскрыв процесс отладки проблем с некорректным выводом, повторениями и редкими символами — уровень прозрачности, редкий в индустрии. GLM-5.1 — это версия после исправления этих проблем, со значительно улучшенной способностью к кодированию.

Kimi K2.6: Флагманская модель Moonshot AI, возглавившая открытые модели в SWE-Bench Pro с результатом 58,6, опередив GPT-5.4 и Claude 4.6. K2.6 использует архитектуру Agent Swarm, поддерживающую 300 параллельных субагентов и 4000 шагов глубокого рассуждения, переопределяя потолок масштаба агентов.

MiMo-V2.5-Pro: Модель, разработанная под руководством Ло Фули, руководителя команды больших моделей Xiaomi. В недавнем 3,5-часовом глубинном интервью Ло раскрыла техническое направление Xiaomi после исчезновения разрыва в предварительном обучении — переход к агентному обучению с подкреплением (Agent RL). Стремительный взлёт MiMo подтверждает эффективность этого подхода.

Неожиданный аутсайдер: DeepSeek V4 Pro

Наиболее драматичным стало выступление DeepSeek V4 Pro. Когда-то считавшаяся королём китайских моделей, V4 Pro неожиданно оказалась в конце этого рейтинга по кодированию. Это может отражать несколько тенденций:

  1. Оптимизация V4 Pro смещена в сторону общего рассуждения, что ставит её в невыгодное положение в специализированных сценариях агентного кодирования
  2. Ускорение итераций конкурентов — специализированные оптимизации кодирования GLM-5.1 и K2.6 показывают значительные результаты
  3. Ценовая стратегия кэширования API DeepSeek снизила стоимость использования, но не привела к улучшению способности к кодированию

Значение для индустрии

Этот сдвиг в рейтинге передаёт несколько важных сигналов:

  • Китайские модели больше не догоняют в кодировании — обход GLM-5.1 модели GPT-5.5 High является знаковым событием
  • Формируется культура прозрачных разборов: публичное раскрытие проблем масштабирования Zhipu, разбор снижения качества Anthropic и обзор инцидента с выводом «гоблина» OpenAI — компании больших моделей повышают инженерную прозрачность
  • Архитектура агентов становится ключевым diferenciрующим фактором: 300 параллельных субагентов K2.6 и самооценка GLM-5.1 (создание полноценной гоночной игры на Three.js для самопроверки) показывают, что агентно-ориентированная архитектура заменяет чистую гонку масштабов моделей

Для разработчиков и предприятий это означает, что в сценариях агентного кодирования китайские модели перешли от «пригодных» к «хорошим» — а в некоторых случаях становятся первым выбором.