TurboQuant：Google 的 KV Cache 压缩术，长上下文推理成本砍掉 6 倍

长上下文 LLM 推理的真正瓶颈不是计算量，而是 KV Cache 的内存墙。当上下文从 4K 拉到 128K 甚至 1M token 时，KV Cache 的显存占用呈线性甚至超线性增长，直接把大多数消费级显卡挡在门外。

Google Research 在 ICLR 2026 发表的 TurboQuant 论文，用一种”看似无聊但极其有效”的数值技巧打破了这个瓶颈。

核心突破

TurboQuant 的核心思路分两步：

PolarQuant（极化量化）：在量化之前，先对 KV 向量做一次旋转变换，把能量集中到少数维度上。旋转后的向量分布更加”稀疏友好”，量化误差大幅下降。
QJL 压缩（Quantized Johnson-Lindenstrauss）：结合随机投影技术，在保持内积精度的同时进一步压缩维度。

最终效果：

指标	传统 KV 量化	TurboQuant	提升
压缩比	~1.5x	4-6x	最高 4 倍
H100 注意力加速	基准	8x	8 倍
精度损失	5-15%	<2%	显著降低
是否需要重训练	部分需要	不需要	零成本迁移

最关键的一点：不需要重新训练模型。TurboQuant 是纯推理端优化，任何现有的开源模型都可以直接受益。

论文发表仅一周，社区已经开始疯狂集成：

Qdrant：已将 TurboQuant 集成到向量搜索引擎，KV Cache 成本降低 6 倍，同时保持检索精度
llama.cpp：第三方开发者推出 TurboQuant+ 分支，在 M5 Max 上跑 Qwen3.5-35B MoE，4K 上下文达到 144 tok/s 的解码速度
Swift MLX fork：macOS 用户可体验约 2.5 倍的解码加速
vLLM-swift：服务端推理框架也在跟进

TurboQuant+ 仓库已在 GitHub 获得 6,685+ stars，是当前 AI 基础设施领域增长最快的项目之一。

大多数人对 AI 基础设施的想象是”新架构”、“新模型”，但实际上推动行业前进的往往是这些”无聊的数值技巧”。

TurboQuant 的实战意义在于：

KV Cache 优化正在成为大模型推理的新战场。对比几种主流方案：

TurboQuant 的优势在于通用性——不绑定特定模型架构，不需要额外训练，即插即用。

场景	建议
本地跑长上下文	安装 TurboQuant+ llama.cpp 分支，M 系列芯片用户直接受益
云服务推理	关注 vLLM 的 TurboQuant 集成，H100/A100 实例性价比将大幅提升
向量检索	Qdrant 已支持，RAG 系统的 KV 存储成本可降低 6 倍
开发者	关注 TheTom 维护的 TurboQuant+ 仓库，跨平台支持最完整

TurboQuant 不是花哨的新模型，但它可能比任何新模型都更直接地影响你每天跑推理的成本和速度。