Главный вывод
Последние результаты бенчмарка GDPval-AA для реальных агентских задач опубликованы, и Xiaomi MiMo-V2.5-Pro занял первое место с результатом 1578 баллов, прервав серию побед DeepSeek в этой оценке. Разрыв между пятью ведущими китайскими open-source моделями сократился до 94 баллов, и конкурентный ландшафт смещается от «одного доминирующего игрока» к «множеству растущих конкурентов».
| Модель | Балл GDPval-AA | Ранг | Дата выпуска |
|---|---|---|---|
| Xiaomi MiMo-V2.5-Pro | 1578 | 1 | 2026.05 |
| DeepSeek V4 Pro | 1554 | 2 | 2026.04 |
| GLM 5.1 | 1535 | 3 | 2026.04 |
| MiniMax M2.7 | 1514 | 4 | 2026.04 |
| Kimi K2.6 | 1484 | 5 | 2026.04 |
Что произошло
GDPval-AA — это бенчмарк, ориентированный на реальные агентские способности. В отличие от традиционных тестов знаний или вопросов с выбором ответа, он оценивает способность модели к планированию, вызову инструментов и многошаговому рассуждению в практических задачах.
Возвышение MiMo-V2.5-Pro на вершину рейтинга посылает несколько ключевых сигналов:
Во-первых, производители смартфонов выходят на арену фундаментальных моделей. Присутствие Xiaomi в сфере ИИ до сих пор концентрировалось на приложениях для конечных пользователей (ИИ-ассистенты в телефонах, устройства IoT), а серия MiMo служила преимущественно вспомогательной моделью для собственной экосистемы. Выход V2.5-Pro в верхнюю эшелон open-source бенчмарков означает, что производители телефонов переходят от «слоя ИИ-приложений» к «слою фундаментальных моделей».
Во-вторых, разница между пятёркой лидеров составляет всего 94 балла. Разница между лучшим результатом 1578 и пятым местом 1484 — всего 6%. Это означает, что по этому измерению оценки ведущие китайские open-source модели вступили в конкурентную фазу «без абсолютного короля». Выбор пользователя больше не определяется исключительно баллами бенчмарка — цену API, размер контекстного окна и скорость инференса тоже необходимо учитывать.
Сравнение бенчмарков: разные измерения, разные победители
GDPval-AA — лишь одна часть оценочной мозаики. При рассмотрении нескольких независимых бенчмарков каждая из пяти ведущих моделей имеет свои сильные стороны:
| Модель | GDPval-AA | SWE-bench | Кодирование | Китайский | Лучший сценарий |
|---|---|---|---|---|---|
| MiMo-V2.5-Pro | 1578 | Средний | Выше среднего | Средний | Агентские воркфлоу |
| DeepSeek V4 Pro | 1554 | Высокий | Высокий | Высокий | Универсальный баланс |
| GLM 5.1 | 1535 | Высокий | Высокий | Высокий | Вызов инструментов + китайский |
| MiniMax M2.7 | 1514 | Средний | Средний | Средний | Мультимодальность |
| Kimi K2.6 | 1484 | Очень высокий | Очень высокий | Высокий | Генерация кода |
Kimi K2.6 занимает последнее место в GDPval-AA, но выделяется в SWE-bench (бенчмарк программной инженерии) — это демонстрирует, что разные бенчмарки отражают разные измерения способностей, и выбор модели должен быть привязан к конкретному сценарию, а не к одному баллу.
Оценка ландшафта
Май 2026 года — это «супермесяц релизов» китайских open-source моделей. Помимо пяти упомянутых моделей, на подходе MiniMax M3. Этот тайминг не случаен — каждая лаборатория стремится занять свою позицию до Google I/O (середина мая) и конференции разработчиков Anthropic (6 мая).
Для разработчиков и корпоративных пользователей это одновременно период «избытка выбора» и лучшее окно для оценки:
- Если вам нужны сильнейшие агентские воркфлоу → MiMo-V2.5-Pro — текущий выбор
- Если нужен баланс кодирования + китайский + инструменты → DeepSeek V4 Pro или GLM 5.1
- Если фокус на программной инженерии → Kimi K2.6 остаётся сильнейшей в SWE-bench
- Если нужна мультимодальность → MiniMax M2.7 заслуживает тестирования
Практические рекомендации
- Не полагайтесь на один бенчмарк: GDPval-AA фокусируется на агентских способностях, SWE-bench — на кодировании, LMArena — на пользовательских ощущениях. Используйте бенчмарк, соответствующий вашему реальному сценарию.
- Запускайте собственные бенчмарки: Каждая модель может иметь неохваченные преимущества в специфических областях. Проводите A/B-тестирование с собственным набором задач.
- Следите за ценовой войной API: По мере сближения способностей моделей цена становится главным дифференциатором. DeepSeek уже начала снижение цен на API — от других ожидается то же самое.