Что произошло
Оценщик сообщества @nanowell опубликовал впечатляющий набор данных в X:
Qwen3.6-27B достиг 100% точности на бенчмарке математической олимпиады AIME25.
AIME (American Invitational Mathematics Examination) — это американский математический пригласительный экзамен. AIME25 — это бенчмарк AI математического рассуждения, основанный на этом экзамене, с задачами, значительно выходящими за рамки стандартной школьной математики, включающими комбинаторику, теорию чисел, геометрию и другие продвинутые навыки рассуждения.
Оценщик также отметил:
«Qwen3.6 27B — одна из немногих open-source моделей, способных достичь 100% точности на AIME25. Модель, по-видимому, была специально донастроена для этого типа задач. В среднем она значительно лучше Qwen3.5.»
Сравнение данных: Qwen3.6 vs Qwen3.5
| Измерение | Серия Qwen3.5 | Qwen3.6-27B | Изменение |
|---|---|---|---|
| AIME25 | ~72% | 100% | +28pp |
| Размер модели | 32B-72B многоуровневая | 27B | Меньше, но сильнее |
| Математическое рассуждение | Общая донастройка | Целевое усиление | Специализированная настройка |
| Доступность open source | Частичные веса | Все веса открыты | Более открытая |
Ключевые сигналы
- Размер 27B достигает идеального балла: Это означает, что open-source модели среднего масштаба могут соответствовать или даже превосходить закрытые модели с сотнями миллиардов параметров в определённых областях.
- Целевая донастройка высокоэффективна: Alibaba явно добавила специализированный этап усиления математического рассуждения в тренировочный пайплайн Qwen3.6.
- Средняя производительность также превосходит предшественника: Не только математика — Qwen3.6 показывает явное улучшение по всем бенчмаркам по сравнению с Qwen3.5.
Техническая спецификация
Прорыв Qwen3.6-27B в математическом рассуждении, вероятно, обусловлен несколькими техническими направлениями:
1. GRPO reinforcement learning
Alibaba ранее опубликовала исследование по направлению GRPO (Group Relative Policy Optimization) для Qwen. GRPO — это алгоритм reinforcement learning, специально разработанный для задач рассуждения, лучше подходящий для многошаговых сценариев рассуждения, таких как математика, чем традиционный RLHF.
2. Оптимизация think-токенов
Команда Qwen проделала значительную работу по оптимизации think-токенов. Тонкий контроль соотношения «мышления» и «вывода» во время рассуждения позволяет модели поддерживать качество ответов при снижении задержки рассуждения.
3. Дистилляция синтетических данных
Использование моделей большего масштаба (таких как Qwen3.6-Max) для генерации высококачественных цепочек математического рассуждения с последующей дистилляцией в 27B модель. Стратегия дистилляции «учитель-ученик» особенно эффективна для задач математического рассуждения.
Влияние на open-source экосистему
Результат идеального балла Qwen3.6-27B на AIME25 несёт значение, выходящее за рамки числа бенчмарка:
Для разработчиков
- Возможность локального развёртывания: Модели 27B могут работать на GPU потребительского класса (например, RTX 4090 24GB), что означает, что предприятия могут получить передовые способности математического рассуждения локально.
- Эффективность затрат: По сравнению с вызовом закрытых API, запуск 27B модели локально дешевле для крупномасштабных сценариев вывода.
Для индустрии
- Сокращение разрыва между open и closed source: В области математического рассуждения, традиционно лидируемой закрытыми моделями, open-source модели догнали или даже превзошли.
- Тренд специализации: Будущая конкуренция — это не только сравнение «универсальных» моделей, но и соревнование «специализированных по области» моделей.
Для китайской экосистемы моделей
Продолжающаяся итерация Qwen3.6 закрепляет позицию Alibaba в первом эшелоне китайских больших моделей. В сочетании с производительностью Qwen3.6-Max Preview на SWE-bench, Alibaba строит всестороннюю матрицу open-source моделей от кода до математики.
Оценка ландшафта
Результат идеального балла Qwen3.6-27B на AIME25 посылает три ясных сигнала:
- Размер модели больше не является определяющим фактором производительности — 27B может победить модели большего размера; ключ — в стратегии обучения.
- Математическое рассуждение становится новым критерием способности моделей — после способности к коду, математическое рассуждение становится новым стандартом для различения уровней моделей.
- Маршрут «целевого усиления» open-source моделей работает — вместо стремления к всеохватности, достижение превосходства в ключевых областях является выигрышной стратегией.
Рекомендации к действию
- Математико-интенсивным приложениям следует приоритетно тестировать Qwen3.6-27B: В образовании, исследованиях, финансовом моделировании и т.д. эта модель предлагает отличное соотношение цены и качества.
- Следите за другими вариантами размера серии Qwen3.6: Если 27B уже достиг идеального балла, то большие версии 35B и меньшие 4B/7B заслуживают постоянного внимания.
- Развёртывание с локальными фреймворками вывода: В сочетании с LM Studio, Ollama и другими локальными инструментами вывода можно получить передовые способности математического рассуждения по нулевой стоимости.
- Сравнительное тестирование с Kimi K2.6 и DeepSeek V4: Как отечественные open-source модели, сравнение способностей математического рассуждения этих трёх моделей предоставит прямую справку для выбора модели.
Новый водораздел для open-source математического рассуждения наступил. Qwen3.6-27B доказал: средний масштаб + точная настройка = производительность высшего уровня.