C
ChaoBro

TurboQuant: сжатие KV-кэша от Google сокращает затраты на долгосрочный вывод в 6 раз

TurboQuant: сжатие KV-кэша от Google сокращает затраты на долгосрочный вывод в 6 раз

Настоящим узким местом в долгосрочном выводе LLM является не вычислительная мощность, а стена памяти KV-кэша. Когда контекст растягивается с 4K до 128K или даже 1M токенов, потребление VRAM KV-кэшем растёт линейно или даже суперлинейно, отсекая большинство потребительских GPU от игры.

Статья TurboQuant от Google Research, опубликованная на ICLR 2026, пробивает эту стену с помощью «на первый взгляд скучного, но чрезвычайно эффективного» численного приёма.

Ключевое достижение

Подход TurboQuant состоит из двух шагов:

  1. PolarQuant: Перед квантованием применяется вращательное преобразование к KV-векторам, концентрируя энергию в меньшем количестве измерений. Распределение повёрнутых векторов становится гораздо более «дружелюбным к квантованию», что резко снижает ошибку квантования.
  2. Сжатие QJL (Quantized Johnson-Lindenstrauss): Комбинация с техникой случайных проекций для дальнейшего сжатия измерений при сохранении точности скалярного произведения.

Итоговые результаты:

МетрикаТрадиционное квантование KVTurboQuantУлучшение
Коэффициент сжатия~1.5x4-6xДо 4 раз
Ускорение внимания на H100Базовый8x8 раз
Потеря точности5-15%<2%Значительно ниже
Требует переобученияЧастичноНетМиграция без затрат

Самый важный момент: переобучение модели не требуется. TurboQuant — это чистая оптимизация на стороне вывода — любая существующая модель с открытым исходным кодом может получить выгоду напрямую.

Ход интеграции в экосистему

Всего через неделю после публикации сообщество уже вовсю интегрирует технологию:

  • Qdrant: Интегрировал TurboQuant в свой поисковый движок векторов, снизив затраты на KV-кэш в 6 раз при сохранении точности поиска
  • llama.cpp: Сторонний разработчик выпустил форк TurboQuant+, запускающий Qwen3.5-35B MoE на M5 Max со скоростью декодирования 144 ток/с при контексте 4K
  • Форк Swift MLX: Пользователи macOS могут получить примерно 2.5-кратное ускорение декодирования
  • vLLM-swift: Серверный фреймворк вывода также следует этому пути

Репозиторий TurboQuant+ уже набрал более 6 685 звёзд на GitHub, став одним из самых быстрорастущих проектов в сфере ИИ-инфраструктуры.

Почему это важно

Большинство людей представляют прогресс в ИИ-инфраструктуре как «новые архитектуры» или «новые модели». Но на самом деле отрасль продвигают вперёд именно эти «скучные численные приёмы».

Практическое значение TurboQuant:

  1. Потребительские GPU могут работать с долгим контекстом: Задачи, которые раньше требовали A100 для контекста 128K, теперь запускаются на RTX 4090
  2. Снижение затрат на облачный вывод: Стоимость одного запроса на экземпляре H100 напрямую снижается на 60-80%
  3. Открытие новых сценариев использования: Контекстный анализ целых книг, покадровое понимание длинных видео, поиск по сверхдлинным кодовым базам — сценарии, ранее заблокированные KV-кэшем, теперь становятся возможными

Оценка ландшафта

Оптимизация KV-кэша становится новым полем битвы для вывода LLM. Сравнение основных подходов:

ПодходСжатиеПотеря точностиСценарий применения
TurboQuant (Google)4-6x<2%Долгосрочный общий вывод
Gemma 4 MTP (Google)3x ускорениеНетУскорение авторегрессионного черновика
Unsloth GGUF2-4x1-3%Локальное развёртывание
FlashAttention-3Оптимизация памятиНетОптимизация на стороне обучения

Преимущество TurboQuant — универсальность: он не привязан к конкретной архитектуре модели, не требует дополнительного обучения и работает по принципу «подключи и работай».

Рекомендации к действию

СценарийРекомендация
Запуск долгого контекста локальноУстановите форк TurboQuant+ llama.cpp; пользователи чипов M-серии получат выгоду немедленно
Облачный выводСледите за интеграцией TurboQuant в vLLM; рентабельность экземпляров H100/A100 значительно улучшится
Векторный поискQdrant уже поддерживает; затраты на KV-хранилище RAG-систем могут снизиться в 6 раз
РазработчикиСледите за репозиторием TurboQuant+, поддерживаемым TheTom — самая полная кроссплатформенная поддержка

TurboQuant — это не яркая новая модель, но он может повлиять на ваши ежедневные затраты и скорость вывода более напрямую, чем любой новый релиз модели.