TurboQuant: сжатие KV-кэша от Google сокращает затраты на долгосрочный вывод в 6 раз

Настоящим узким местом в долгосрочном выводе LLM является не вычислительная мощность, а стена памяти KV-кэша. Когда контекст растягивается с 4K до 128K или даже 1M токенов, потребление VRAM KV-кэшем растёт линейно или даже суперлинейно, отсекая большинство потребительских GPU от игры.

Статья TurboQuant от Google Research, опубликованная на ICLR 2026, пробивает эту стену с помощью «на первый взгляд скучного, но чрезвычайно эффективного» численного приёма.

Ключевое достижение

Подход TurboQuant состоит из двух шагов:

PolarQuant: Перед квантованием применяется вращательное преобразование к KV-векторам, концентрируя энергию в меньшем количестве измерений. Распределение повёрнутых векторов становится гораздо более «дружелюбным к квантованию», что резко снижает ошибку квантования.
Сжатие QJL (Quantized Johnson-Lindenstrauss): Комбинация с техникой случайных проекций для дальнейшего сжатия измерений при сохранении точности скалярного произведения.

Итоговые результаты:

Метрика	Традиционное квантование KV	TurboQuant	Улучшение
Коэффициент сжатия	~1.5x	4-6x	До 4 раз
Ускорение внимания на H100	Базовый	8x	8 раз
Потеря точности	5-15%	<2%	Значительно ниже
Требует переобучения	Частично	Нет	Миграция без затрат

Самый важный момент: переобучение модели не требуется. TurboQuant — это чистая оптимизация на стороне вывода — любая существующая модель с открытым исходным кодом может получить выгоду напрямую.

Ход интеграции в экосистему

Всего через неделю после публикации сообщество уже вовсю интегрирует технологию:

Qdrant: Интегрировал TurboQuant в свой поисковый движок векторов, снизив затраты на KV-кэш в 6 раз при сохранении точности поиска
llama.cpp: Сторонний разработчик выпустил форк TurboQuant+, запускающий Qwen3.5-35B MoE на M5 Max со скоростью декодирования 144 ток/с при контексте 4K
Форк Swift MLX: Пользователи macOS могут получить примерно 2.5-кратное ускорение декодирования
vLLM-swift: Серверный фреймворк вывода также следует этому пути

Репозиторий TurboQuant+ уже набрал более 6 685 звёзд на GitHub, став одним из самых быстрорастущих проектов в сфере ИИ-инфраструктуры.

Почему это важно

Большинство людей представляют прогресс в ИИ-инфраструктуре как «новые архитектуры» или «новые модели». Но на самом деле отрасль продвигают вперёд именно эти «скучные численные приёмы».

Практическое значение TurboQuant:

Потребительские GPU могут работать с долгим контекстом: Задачи, которые раньше требовали A100 для контекста 128K, теперь запускаются на RTX 4090
Снижение затрат на облачный вывод: Стоимость одного запроса на экземпляре H100 напрямую снижается на 60-80%
Открытие новых сценариев использования: Контекстный анализ целых книг, покадровое понимание длинных видео, поиск по сверхдлинным кодовым базам — сценарии, ранее заблокированные KV-кэшем, теперь становятся возможными

Оценка ландшафта

Оптимизация KV-кэша становится новым полем битвы для вывода LLM. Сравнение основных подходов:

Подход	Сжатие	Потеря точности	Сценарий применения
TurboQuant (Google)	4-6x	<2%	Долгосрочный общий вывод
Gemma 4 MTP (Google)	3x ускорение	Нет	Ускорение авторегрессионного черновика
Unsloth GGUF	2-4x	1-3%	Локальное развёртывание
FlashAttention-3	Оптимизация памяти	Нет	Оптимизация на стороне обучения

Преимущество TurboQuant — универсальность: он не привязан к конкретной архитектуре модели, не требует дополнительного обучения и работает по принципу «подключи и работай».

Сценарий	Рекомендация
Запуск долгого контекста локально	Установите форк TurboQuant+ llama.cpp; пользователи чипов M-серии получат выгоду немедленно
Облачный вывод	Следите за интеграцией TurboQuant в vLLM; рентабельность экземпляров H100/A100 значительно улучшится
Векторный поиск	Qdrant уже поддерживает; затраты на KV-хранилище RAG-систем могут снизиться в 6 раз
Разработчики	Следите за репозиторием TurboQuant+, поддерживаемым TheTom — самая полная кроссплатформенная поддержка

Ключевое достижение

Ход интеграции в экосистему

Почему это важно

Оценка ландшафта

Рекомендации к действию

Похожие материалы

Восхождение Nanobrowser: автоматизация браузера с открытым исходным кодом завершает монополию Operator

GitHub Trending #1: DeepSeek-TUI набирает 2400 звёзд в день, AI-агент для кодинга в терминале взорвал рынок

InsForge попадает в тренды GitHub: бэкенд на PostgreSQL, созданный для кодирующих агентов, 8200+ звёзд