Qwen3.6-27B набирает идеальный балл на AIME25: новый водораздел для open-source математического рассуждения

Что произошло

Оценщик сообщества @nanowell опубликовал впечатляющий набор данных в X:

Qwen3.6-27B достиг 100% точности на бенчмарке математической олимпиады AIME25.

AIME (American Invitational Mathematics Examination) — это американский математический пригласительный экзамен. AIME25 — это бенчмарк AI математического рассуждения, основанный на этом экзамене, с задачами, значительно выходящими за рамки стандартной школьной математики, включающими комбинаторику, теорию чисел, геометрию и другие продвинутые навыки рассуждения.

Оценщик также отметил:

«Qwen3.6 27B — одна из немногих open-source моделей, способных достичь 100% точности на AIME25. Модель, по-видимому, была специально донастроена для этого типа задач. В среднем она значительно лучше Qwen3.5.»

Сравнение данных: Qwen3.6 vs Qwen3.5

Измерение	Серия Qwen3.5	Qwen3.6-27B	Изменение
AIME25	~72%	100%	+28pp
Размер модели	32B-72B многоуровневая	27B	Меньше, но сильнее
Математическое рассуждение	Общая донастройка	Целевое усиление	Специализированная настройка
Доступность open source	Частичные веса	Все веса открыты	Более открытая

Ключевые сигналы

Размер 27B достигает идеального балла: Это означает, что open-source модели среднего масштаба могут соответствовать или даже превосходить закрытые модели с сотнями миллиардов параметров в определённых областях.
Целевая донастройка высокоэффективна: Alibaba явно добавила специализированный этап усиления математического рассуждения в тренировочный пайплайн Qwen3.6.
Средняя производительность также превосходит предшественника: Не только математика — Qwen3.6 показывает явное улучшение по всем бенчмаркам по сравнению с Qwen3.5.

Техническая спецификация

Прорыв Qwen3.6-27B в математическом рассуждении, вероятно, обусловлен несколькими техническими направлениями:

1. GRPO reinforcement learning

Alibaba ранее опубликовала исследование по направлению GRPO (Group Relative Policy Optimization) для Qwen. GRPO — это алгоритм reinforcement learning, специально разработанный для задач рассуждения, лучше подходящий для многошаговых сценариев рассуждения, таких как математика, чем традиционный RLHF.

2. Оптимизация think-токенов

Команда Qwen проделала значительную работу по оптимизации think-токенов. Тонкий контроль соотношения «мышления» и «вывода» во время рассуждения позволяет модели поддерживать качество ответов при снижении задержки рассуждения.

3. Дистилляция синтетических данных

Использование моделей большего масштаба (таких как Qwen3.6-Max) для генерации высококачественных цепочек математического рассуждения с последующей дистилляцией в 27B модель. Стратегия дистилляции «учитель-ученик» особенно эффективна для задач математического рассуждения.

Влияние на open-source экосистему

Результат идеального балла Qwen3.6-27B на AIME25 несёт значение, выходящее за рамки числа бенчмарка:

Для разработчиков

Возможность локального развёртывания: Модели 27B могут работать на GPU потребительского класса (например, RTX 4090 24GB), что означает, что предприятия могут получить передовые способности математического рассуждения локально.
Эффективность затрат: По сравнению с вызовом закрытых API, запуск 27B модели локально дешевле для крупномасштабных сценариев вывода.

Для индустрии

Сокращение разрыва между open и closed source: В области математического рассуждения, традиционно лидируемой закрытыми моделями, open-source модели догнали или даже превзошли.
Тренд специализации: Будущая конкуренция — это не только сравнение «универсальных» моделей, но и соревнование «специализированных по области» моделей.

Для китайской экосистемы моделей

Продолжающаяся итерация Qwen3.6 закрепляет позицию Alibaba в первом эшелоне китайских больших моделей. В сочетании с производительностью Qwen3.6-Max Preview на SWE-bench, Alibaba строит всестороннюю матрицу open-source моделей от кода до математики.

Оценка ландшафта

Результат идеального балла Qwen3.6-27B на AIME25 посылает три ясных сигнала:

Размер модели больше не является определяющим фактором производительности — 27B может победить модели большего размера; ключ — в стратегии обучения.
Математическое рассуждение становится новым критерием способности моделей — после способности к коду, математическое рассуждение становится новым стандартом для различения уровней моделей.
Маршрут «целевого усиления» open-source моделей работает — вместо стремления к всеохватности, достижение превосходства в ключевых областях является выигрышной стратегией.