Настоящим узким местом в долгосрочном выводе LLM является не вычислительная мощность, а стена памяти KV-кэша. Когда контекст растягивается с 4K до 128K или даже 1M токенов, потребление VRAM KV-кэшем растёт линейно или даже суперлинейно, отсекая большинство потребительских GPU от игры.
Статья TurboQuant от Google Research, опубликованная на ICLR 2026, пробивает эту стену с помощью «на первый взгляд скучного, но чрезвычайно эффективного» численного приёма.
Ключевое достижение
Подход TurboQuant состоит из двух шагов:
- PolarQuant: Перед квантованием применяется вращательное преобразование к KV-векторам, концентрируя энергию в меньшем количестве измерений. Распределение повёрнутых векторов становится гораздо более «дружелюбным к квантованию», что резко снижает ошибку квантования.
- Сжатие QJL (Quantized Johnson-Lindenstrauss): Комбинация с техникой случайных проекций для дальнейшего сжатия измерений при сохранении точности скалярного произведения.
Итоговые результаты:
| Метрика | Традиционное квантование KV | TurboQuant | Улучшение |
|---|---|---|---|
| Коэффициент сжатия | ~1.5x | 4-6x | До 4 раз |
| Ускорение внимания на H100 | Базовый | 8x | 8 раз |
| Потеря точности | 5-15% | <2% | Значительно ниже |
| Требует переобучения | Частично | Нет | Миграция без затрат |
Самый важный момент: переобучение модели не требуется. TurboQuant — это чистая оптимизация на стороне вывода — любая существующая модель с открытым исходным кодом может получить выгоду напрямую.
Ход интеграции в экосистему
Всего через неделю после публикации сообщество уже вовсю интегрирует технологию:
- Qdrant: Интегрировал TurboQuant в свой поисковый движок векторов, снизив затраты на KV-кэш в 6 раз при сохранении точности поиска
- llama.cpp: Сторонний разработчик выпустил форк TurboQuant+, запускающий Qwen3.5-35B MoE на M5 Max со скоростью декодирования 144 ток/с при контексте 4K
- Форк Swift MLX: Пользователи macOS могут получить примерно 2.5-кратное ускорение декодирования
- vLLM-swift: Серверный фреймворк вывода также следует этому пути
Репозиторий TurboQuant+ уже набрал более 6 685 звёзд на GitHub, став одним из самых быстрорастущих проектов в сфере ИИ-инфраструктуры.
Почему это важно
Большинство людей представляют прогресс в ИИ-инфраструктуре как «новые архитектуры» или «новые модели». Но на самом деле отрасль продвигают вперёд именно эти «скучные численные приёмы».
Практическое значение TurboQuant:
- Потребительские GPU могут работать с долгим контекстом: Задачи, которые раньше требовали A100 для контекста 128K, теперь запускаются на RTX 4090
- Снижение затрат на облачный вывод: Стоимость одного запроса на экземпляре H100 напрямую снижается на 60-80%
- Открытие новых сценариев использования: Контекстный анализ целых книг, покадровое понимание длинных видео, поиск по сверхдлинным кодовым базам — сценарии, ранее заблокированные KV-кэшем, теперь становятся возможными
Оценка ландшафта
Оптимизация KV-кэша становится новым полем битвы для вывода LLM. Сравнение основных подходов:
| Подход | Сжатие | Потеря точности | Сценарий применения |
|---|---|---|---|
| TurboQuant (Google) | 4-6x | <2% | Долгосрочный общий вывод |
| Gemma 4 MTP (Google) | 3x ускорение | Нет | Ускорение авторегрессионного черновика |
| Unsloth GGUF | 2-4x | 1-3% | Локальное развёртывание |
| FlashAttention-3 | Оптимизация памяти | Нет | Оптимизация на стороне обучения |
Преимущество TurboQuant — универсальность: он не привязан к конкретной архитектуре модели, не требует дополнительного обучения и работает по принципу «подключи и работай».
Рекомендации к действию
| Сценарий | Рекомендация |
|---|---|
| Запуск долгого контекста локально | Установите форк TurboQuant+ llama.cpp; пользователи чипов M-серии получат выгоду немедленно |
| Облачный вывод | Следите за интеграцией TurboQuant в vLLM; рентабельность экземпляров H100/A100 значительно улучшится |
| Векторный поиск | Qdrant уже поддерживает; затраты на KV-хранилище RAG-систем могут снизиться в 6 раз |
| Разработчики | Следите за репозиторием TurboQuant+, поддерживаемым TheTom — самая полная кроссплатформенная поддержка |
TurboQuant — это не яркая новая модель, но он может повлиять на ваши ежедневные затраты и скорость вывода более напрямую, чем любой новый релиз модели.