腾讯混元新论文：On-Policy Distillation 到底能释放多少效率？

模型蒸馏（Knowledge Distillation）已经不是什么新鲜事了。简单说，就是让一个大模型（教师）教一个小模型（学生），让小模型在保持较小体积的同时，尽可能接近大模型的能力。

但腾讯混元团队的这篇新论文，问了一个之前没被系统研究过的问题：在 On-Policy 设定下做蒸馏，到底能释放多少被"锁住"的模型效率？

On-Policy Distillation 是什么？

先解释一下背景。

在强化学习中，On-Policy 意味着智能体只使用当前策略产生的数据来更新自己。Off-Policy 则可以使用过去任何策略产生的数据。

On-Policy Distillation 的核心思路是：在模型自己生成的数据上进行蒸馏学习，而不是在固定的数据集上。

这听起来很直观——让模型在"自己擅长的领域"学习，应该更有效率。但问题是：到底有多有效？在什么条件下有效？不同策略之间的效率差距有多大？

之前没有人系统回答过这些问题。

腾讯混元团队做了大量实验，有几个发现值得重点关注：

第一，On-Policy 蒸馏的效率优势不是均匀的。 在某些任务上，On-Policy 蒸馏比 Off-PPolicy 蒸馏的效率提升非常显著；在另一些任务上，差距则很小。这说明蒸馏策略的选择需要根据任务特性来定制，没有"一刀切"的方案。

第二，"解锁效率"的关键在于数据分布的匹配度。 当蒸馏数据的分布与模型在实际使用中遇到的数据分布高度一致时，On-Policy 蒸馏的优势最大。这直觉上很好理解——你练习的内容和考试的内容越接近，效果自然越好。

第三，迭代式蒸馏比一次性蒸馏效果更好。 论文发现，通过多轮迭代的方式逐步蒸馏（每一轮都用更新后的模型生成新的蒸馏数据），可以持续释放模型潜力。这个过程有点像"自我提升"——每一轮都比上一轮更好。

这篇论文的价值不仅在于学术发现，更在于它对实际工程实践的指导意义。

成本优化。 大模型的训练成本越来越高，任何能提升训练效率的方法都有直接的经济价值。如果 On-Policy 蒸馏能在保持同等性能的前提下减少训练步数，那省下来的算力和时间都是实打实的。

小模型能力释放。 很多场景下，我们无法使用最大的模型（成本、延迟、部署限制）。蒸馏是让小模型获得接近大模型能力的关键技术。理解 On-Policy 蒸馏的效率边界，能帮助我们在"模型大小"和"性能"之间做出更精确的权衡。

RLHF 流程优化。 On-Policy 蒸馏的思路和 RLHF 中的 PPO 训练有相似之处——都是基于当前策略生成数据来更新模型。论文中的发现可能为优化 RLHF 流程提供参考。

当然，对这篇论文的结果也要保持冷静：

实验范围的局限。 论文中的结论基于特定的模型架构和任务设定。换一套模型、换一个领域，结论可能不完全适用。

计算开销的权衡。 On-Policy 蒸馏虽然能提高效率，但每一轮都需要用模型生成数据，这个生成过程本身也有成本。在实际应用中，需要综合评估"蒸馏收益"和"生成成本"。

过拟合风险。 在模型自己生成的数据上反复学习，可能会导致模型过度适应特定的数据分布，从而降低泛化能力。论文中提到了一些缓解策略，但在实际部署中仍需谨慎验证。

腾讯混元团队这篇论文的最大贡献，可能不是某个具体的技术指标，而是把一个之前被忽略的问题摆到了台面上。

在过去几年里，大家都在追求"更大的模型、更多的数据、更强的算力"。但这篇论文提醒我们：效率同样重要。 如果你能用更少的资源达到同样的效果，那本身就是一种竞争力。

在算力成本持续攀升、行业越来越关注投入产出比的 2026 年，这种对"效率"的系统性研究，恰恰是行业走向成熟的表现。