Gemma 4 MTP 正式发布：多令牌预测让本地推理速度翻 3 倍

结论先行

Google Gemma 4 系列正式支持 MTP（Multi-Token Prediction） 技术，通过投机解码（speculative decoding）将本地推理速度提升 2-3 倍，且零质量损失。

SGLang 已实现 Day 0 支持，覆盖 Gemma 4 全部 4 个尺寸。对于在本地设备上运行 LLM 的开发者和用户来说，这是 2026 年以来最实用的推理加速方案之一。

传统 LLM 的瓶颈在于：一次只能生成一个 token，处理器大量时间在等待内存带宽。

MTP 的核心思路：让模型一次”看”多个 token，通过投机性预测加速生成：

传统方式：   T → T → T → T → T → ...（每次 1 token，顺序执行）
MTP 方式：   [T T T] → [T T T] → [T T T] → ...（一次预测多个，并行验证）

场景	传统推理	MTP 推理	提升倍数
本地 MacBook Pro M4	~20 tps	~60 tps	3x
消费级 GPU (RTX 4090)	~40 tps	~100 tps	2.5x
服务器端 (A100)	~80 tps	~200 tps	2.5x
端侧设备 (手机)	~8 tps	~20 tps	2.5x

关键数据：从 20 tps 到 60 tps 的提升，意味着本地运行 Gemma 4 的交互体验从”勉强可用”变成了”流畅对话”。

MTP 不是简单”跳过”token——它使用了投机验证机制：

这意味着输出质量与传统方式完全相同——只是速度更快。

SGLang 框架已第一时间实现 Gemma 4 MTP 支持：

这对开发者来说意味着：不需要自己实现 MTP 推理逻辑，SGLang 已处理了所有底层优化。

此前 ChaoBro 已覆盖的 Gemma 4 文章：

gemma-4-26b-a4b-local-ai-inference-2026.md：侧重模型参数量和本地部署
gemma-4-good-challenge-200k-open-source-2026.md：侧重 Good Challenge 基准和 200K 上下文
gemma-4-react-native-on-device-2026.md：侧重 React Native 移动端集成

本文聚焦的是 MTP 推理加速技术，这是 Gemma 4 系列的一个独立技术亮点，此前未在本站覆盖。

适合采用 Gemma 4 MTP 的场景：

上手方式：

成本：MTP 是纯软件优化，不增加任何硬件成本。唯一的”代价”是草稿模型的少量显存占用（约 5-10%）。