Xiaomi MiMo-V2.5-Pro возглавляет рейтинг GDPval-AA, ландшафт китайских open-source моделей меняется

Главный вывод

Последние результаты бенчмарка GDPval-AA для реальных агентских задач опубликованы, и Xiaomi MiMo-V2.5-Pro занял первое место с результатом 1578 баллов, прервав серию побед DeepSeek в этой оценке. Разрыв между пятью ведущими китайскими open-source моделями сократился до 94 баллов, и конкурентный ландшафт смещается от «одного доминирующего игрока» к «множеству растущих конкурентов».

Модель	Балл GDPval-AA	Ранг	Дата выпуска
Xiaomi MiMo-V2.5-Pro	1578	1	2026.05
DeepSeek V4 Pro	1554	2	2026.04
GLM 5.1	1535	3	2026.04
MiniMax M2.7	1514	4	2026.04
Kimi K2.6	1484	5	2026.04

Что произошло

GDPval-AA — это бенчмарк, ориентированный на реальные агентские способности. В отличие от традиционных тестов знаний или вопросов с выбором ответа, он оценивает способность модели к планированию, вызову инструментов и многошаговому рассуждению в практических задачах.

Возвышение MiMo-V2.5-Pro на вершину рейтинга посылает несколько ключевых сигналов:

Во-первых, производители смартфонов выходят на арену фундаментальных моделей. Присутствие Xiaomi в сфере ИИ до сих пор концентрировалось на приложениях для конечных пользователей (ИИ-ассистенты в телефонах, устройства IoT), а серия MiMo служила преимущественно вспомогательной моделью для собственной экосистемы. Выход V2.5-Pro в верхнюю эшелон open-source бенчмарков означает, что производители телефонов переходят от «слоя ИИ-приложений» к «слою фундаментальных моделей».

Во-вторых, разница между пятёркой лидеров составляет всего 94 балла. Разница между лучшим результатом 1578 и пятым местом 1484 — всего 6%. Это означает, что по этому измерению оценки ведущие китайские open-source модели вступили в конкурентную фазу «без абсолютного короля». Выбор пользователя больше не определяется исключительно баллами бенчмарка — цену API, размер контекстного окна и скорость инференса тоже необходимо учитывать.

Сравнение бенчмарков: разные измерения, разные победители

GDPval-AA — лишь одна часть оценочной мозаики. При рассмотрении нескольких независимых бенчмарков каждая из пяти ведущих моделей имеет свои сильные стороны:

Модель	GDPval-AA	SWE-bench	Кодирование	Китайский	Лучший сценарий
MiMo-V2.5-Pro	1578	Средний	Выше среднего	Средний	Агентские воркфлоу
DeepSeek V4 Pro	1554	Высокий	Высокий	Высокий	Универсальный баланс
GLM 5.1	1535	Высокий	Высокий	Высокий	Вызов инструментов + китайский
MiniMax M2.7	1514	Средний	Средний	Средний	Мультимодальность
Kimi K2.6	1484	Очень высокий	Очень высокий	Высокий	Генерация кода

Kimi K2.6 занимает последнее место в GDPval-AA, но выделяется в SWE-bench (бенчмарк программной инженерии) — это демонстрирует, что разные бенчмарки отражают разные измерения способностей, и выбор модели должен быть привязан к конкретному сценарию, а не к одному баллу.

Оценка ландшафта

Май 2026 года — это «супермесяц релизов» китайских open-source моделей. Помимо пяти упомянутых моделей, на подходе MiniMax M3. Этот тайминг не случаен — каждая лаборатория стремится занять свою позицию до Google I/O (середина мая) и конференции разработчиков Anthropic (6 мая).

Для разработчиков и корпоративных пользователей это одновременно период «избытка выбора» и лучшее окно для оценки:

Если вам нужны сильнейшие агентские воркфлоу → MiMo-V2.5-Pro — текущий выбор
Если нужен баланс кодирования + китайский + инструменты → DeepSeek V4 Pro или GLM 5.1
Если фокус на программной инженерии → Kimi K2.6 остаётся сильнейшей в SWE-bench
Если нужна мультимодальность → MiniMax M2.7 заслуживает тестирования

Практические рекомендации

Не полагайтесь на один бенчмарк: GDPval-AA фокусируется на агентских способностях, SWE-bench — на кодировании, LMArena — на пользовательских ощущениях. Используйте бенчмарк, соответствующий вашему реальному сценарию.
Запускайте собственные бенчмарки: Каждая модель может иметь неохваченные преимущества в специфических областях. Проводите A/B-тестирование с собственным набором задач.
Следите за ценовой войной API: По мере сближения способностей моделей цена становится главным дифференциатором. DeepSeek уже начала снижение цен на API — от других ожидается то же самое.

Главный вывод

Что произошло

Сравнение бенчмарков: разные измерения, разные победители

Оценка ландшафта

Практические рекомендации

Похожие материалы

GPT-6 входит в фазу выравнивания безопасности: 5-6 триллионов параметров, математическое рассуждение 92,5%,通过率 кода 96,8%

MiniMax M3 выходит в этом месяце: нацелен на офисные сценарии с масштабным обновлением агентных способностей

GLM-5.1 выходит на 0G Private Computer: что значит запуск 754B MoE-модели внутри TEE