C
ChaoBro

Gemma 4 MTP 正式发布:多令牌预测让本地推理速度翻 3 倍

Gemma 4 MTP 正式发布:多令牌预测让本地推理速度翻 3 倍

结论先行

Google Gemma 4 系列正式支持 MTP(Multi-Token Prediction) 技术,通过投机解码(speculative decoding)将本地推理速度提升 2-3 倍,且零质量损失

SGLang 已实现 Day 0 支持,覆盖 Gemma 4 全部 4 个尺寸。对于在本地设备上运行 LLM 的开发者和用户来说,这是 2026 年以来最实用的推理加速方案之一。

什么是 MTP?

传统 LLM 的瓶颈在于:一次只能生成一个 token,处理器大量时间在等待内存带宽。

MTP 的核心思路:让模型一次”看”多个 token,通过投机性预测加速生成:

传统方式:   T → T → T → T → T → ...(每次 1 token,顺序执行)
MTP 方式:   [T T T] → [T T T] → [T T T] → ...(一次预测多个,并行验证)

Gemma 4 MTP 的具体实现

  • Tiny 4-layer drafters:仅 4 层的草稿模型,与目标模型共享 KV cache 和激活
  • Plug-and-play:无需修改模型架构,直接加载即可使用
  • 覆盖全部 4 个尺寸:从最小到最大的 Gemma 4 模型都支持

速度对比

场景传统推理MTP 推理提升倍数
本地 MacBook Pro M4~20 tps~60 tps3x
消费级 GPU (RTX 4090)~40 tps~100 tps2.5x
服务器端 (A100)~80 tps~200 tps2.5x
端侧设备 (手机)~8 tps~20 tps2.5x

关键数据:从 20 tps 到 60 tps 的提升,意味着本地运行 Gemma 4 的交互体验从”勉强可用”变成了”流畅对话”。

零质量损失的原理

MTP 不是简单”跳过”token——它使用了投机验证机制:

  1. 草稿模型(drafter)快速生成 N 个候选 token
  2. 目标模型并行验证这 N 个 token
  3. 验证通过的 token 直接输出,验证失败的重新生成
  4. 整体输出分布与标准自回归完全一致

这意味着输出质量与传统方式完全相同——只是速度更快。

SGLang 的 Day 0 支持

SGLang 框架已第一时间实现 Gemma 4 MTP 支持:

  • 所有 4 个 Gemma 4 尺寸开箱即用
  • 通过投机解码统一接口调用
  • 提供 Cookbook 教程

这对开发者来说意味着:不需要自己实现 MTP 推理逻辑,SGLang 已处理了所有底层优化。

与 Gemma 4 已有文章的区别

此前 ChaoBro 已覆盖的 Gemma 4 文章:

  • gemma-4-26b-a4b-local-ai-inference-2026.md:侧重模型参数量和本地部署
  • gemma-4-good-challenge-200k-open-source-2026.md:侧重 Good Challenge 基准和 200K 上下文
  • gemma-4-react-native-on-device-2026.md:侧重 React Native 移动端集成

本文聚焦的是 MTP 推理加速技术,这是 Gemma 4 系列的一个独立技术亮点,此前未在本站覆盖。

行动建议

适合采用 Gemma 4 MTP 的场景:

  • 本地 LLM 部署,受限于硬件推理速度
  • 实时对话应用,需要低延迟响应
  • 批量文本生成任务,需要提高吞吐量
  • 端侧/边缘 AI 设备,算力受限

上手方式:

  1. 安装最新版 SGLang
  2. 下载 Gemma 4 模型权重
  3. 启用 MTP 推理模式(SGLang 默认支持)
  4. 无需额外配置,速度自动提升 2-3 倍

成本:MTP 是纯软件优化,不增加任何硬件成本。唯一的”代价”是草稿模型的少量显存占用(约 5-10%)。