Выводы в первую очередь
Серия Gemma 4 от Google теперь официально поддерживает MTP (Multi-Token Prediction — предсказание нескольких токенов), ускоряя локальный вывод в 2-3 раза через спекулятивное декодирование с нулевой потерей качества.
SGLang обеспечил поддержку с первого дня (Day 0), охватывая все 4 размера Gemma 4. Для разработчиков и пользователей, запускающих LLM на локальных устройствах, это одно из самых практичных решений ускорения вывода 2026 года.
Что такое MTP?
Бутылочное горлышко традиционных LLM: генерация ровно одного токена за раз, при этом процессор spends значительное время в ожидании пропускной способности памяти.
Ключевая идея MTP: позволить модели «заглядывать вперёд» на несколько токенов, ускоряя генерацию через спекулятивное предсказание:
Традиционный: T → T → T → T → T → ... (1 токен за раз, последовательно)
MTP: [T T T] → [T T T] → [T T T] → ... (предсказание нескольких сразу, параллельная верификация)
Детали реализации Gemma 4 MTP
- Крошечные 4-слойные драфтеры: драфт-модели всего из 4 слоёв, разделяющие KV-кеш и активации с целевой моделью
- Подключай и работай: не требуется модификации архитектуры модели, просто загрузите и используйте
- Охватывает все 4 размера: от наименьшего до наибольшего модели Gemma 4
Сравнение скорости
| Сценарий | Традиционный вывод | Вывод с MTP | Ускорение |
|---|---|---|---|
| Локальный MacBook Pro M4 | ~20 tps | ~60 tps | 3x |
| Потребительский GPU (RTX 4090) | ~40 tps | ~100 tps | 2.5x |
| Сервер (A100) | ~80 tps | ~200 tps | 2.5x |
| Граничное устройство (телефон) | ~8 tps | ~20 tps | 2.5x |
Ключевые данные: скачок с 20 tps до 60 tps трансформирует опыт работы с Gemma 4 локально от «едва usable» до «плавного разговора».
Механизм нулевой потери качества
MTP не просто «пропускает» токены — он использует механизм спекулятивной верификации:
- Модель-драфтер быстро генерирует N кандидатных токенов
- Целевая модель параллельно верифицирует эти N токенов
- Верифицированные токены выводятся напрямую; не прошедшие — перегенерируются
- Общее распределение вывода идентично стандартной авторегрессивной генерации
Это означает, что качество вывода идентично традиционному подходу — просто быстрее.
Поддержка Day 0 в SGLang
Фреймворк SGLang немедленно реализовал поддержку Gemma 4 MTP:
- Все 4 размера Gemma 4 работают из коробки
- Унифицированный интерфейс спекулятивного декодирования
- Предоставлен учебник Cookbook
Для разработчиков: не нужно самостоятельно реализовывать логику вывода MTP — SGLang обрабатывает всю низкоуровневую оптимизацию.
Отличие от предыдущих статей о Gemma 4
Предыдущие статьи ChaoBro о Gemma 4:
gemma-4-26b-a4b-local-ai-inference-2026.md: фокус на количестве параметров и локальном развёртыванииgemma-4-good-challenge-200k-open-source-2026.md: фокус на бенчмарке Good Challenge и контексте 200Kgemma-4-react-native-on-device-2026.md: фокус на мобильной интеграции React Native
Эта статья фокусируется на технологии ускорения вывода MTP — отдельном техническом хайте серии Gemma 4, ранее не покрытом на этом сайте.
Рекомендации к действию
Лучшие сценарии для Gemma 4 MTP:
- Локальное развёртывание LLM, ограниченное скоростью аппаратного вывода
- Приложения диалога в реальном времени, требующие низкой задержки
- Задачи пакетной генерации текста, нуждающиеся в более высокой пропускной способности
- Граничный/устройственный ИИ с ограничениями вычислений
Как начать:
- Установите последнюю версию SGLang
- Скачайте веса модели Gemma 4
- Включите режим вывода MTP (SGLang поддерживает его по умолчанию)
- Дополнительная настройка не требуется — скорость автоматически увеличивается в 2-3 раза
Стоимость: MTP — это чисто программная оптимизация с нулевым увеличением аппаратных затрат. Единственный «расход» — небольшое количество дополнительной VRAM для модели-драфтера (примерно 5-10%).