模型蒸馏(Knowledge Distillation)已经不是什么新鲜事了。简单说,就是让一个大模型(教师)教一个小模型(学生),让小模型在保持较小体积的同时,尽可能接近大模型的能力。
但腾讯混元团队的这篇新论文,问了一个之前没被系统研究过的问题:在 On-Policy 设定下做蒸馏,到底能释放多少被"锁住"的模型效率?
On-Policy Distillation 是什么?
先解释一下背景。
在强化学习中,On-Policy 意味着智能体只使用当前策略产生的数据来更新自己。Off-Policy 则可以使用过去任何策略产生的数据。
On-Policy Distillation 的核心思路是:在模型自己生成的数据上进行蒸馏学习,而不是在固定的数据集上。
这听起来很直观——让模型在"自己擅长的领域"学习,应该更有效率。但问题是:到底有多有效?在什么条件下有效?不同策略之间的效率差距有多大?
之前没有人系统回答过这些问题。
论文的核心发现
腾讯混元团队做了大量实验,有几个发现值得重点关注:
第一,On-Policy 蒸馏的效率优势不是均匀的。 在某些任务上,On-Policy 蒸馏比 Off-PPolicy 蒸馏的效率提升非常显著;在另一些任务上,差距则很小。这说明蒸馏策略的选择需要根据任务特性来定制,没有"一刀切"的方案。
第二,"解锁效率"的关键在于数据分布的匹配度。 当蒸馏数据的分布与模型在实际使用中遇到的数据分布高度一致时,On-Policy 蒸馏的优势最大。这直觉上很好理解——你练习的内容和考试的内容越接近,效果自然越好。
第三,迭代式蒸馏比一次性蒸馏效果更好。 论文发现,通过多轮迭代的方式逐步蒸馏(每一轮都用更新后的模型生成新的蒸馏数据),可以持续释放模型潜力。这个过程有点像"自我提升"——每一轮都比上一轮更好。
对行业的意义
这篇论文的价值不仅在于学术发现,更在于它对实际工程实践的指导意义。
成本优化。 大模型的训练成本越来越高,任何能提升训练效率的方法都有直接的经济价值。如果 On-Policy 蒸馏能在保持同等性能的前提下减少训练步数,那省下来的算力和时间都是实打实的。
小模型能力释放。 很多场景下,我们无法使用最大的模型(成本、延迟、部署限制)。蒸馏是让小模型获得接近大模型能力的关键技术。理解 On-Policy 蒸馏的效率边界,能帮助我们在"模型大小"和"性能"之间做出更精确的权衡。
RLHF 流程优化。 On-Policy 蒸馏的思路和 RLHF 中的 PPO 训练有相似之处——都是基于当前策略生成数据来更新模型。论文中的发现可能为优化 RLHF 流程提供参考。
需要警惕的地方
当然,对这篇论文的结果也要保持冷静:
实验范围的局限。 论文中的结论基于特定的模型架构和任务设定。换一套模型、换一个领域,结论可能不完全适用。
计算开销的权衡。 On-Policy 蒸馏虽然能提高效率,但每一轮都需要用模型生成数据,这个生成过程本身也有成本。在实际应用中,需要综合评估"蒸馏收益"和"生成成本"。
过拟合风险。 在模型自己生成的数据上反复学习,可能会导致模型过度适应特定的数据分布,从而降低泛化能力。论文中提到了一些缓解策略,但在实际部署中仍需谨慎验证。
写在最后
腾讯混元团队这篇论文的最大贡献,可能不是某个具体的技术指标,而是把一个之前被忽略的问题摆到了台面上。
在过去几年里,大家都在追求"更大的模型、更多的数据、更强的算力"。但这篇论文提醒我们:效率同样重要。 如果你能用更少的资源达到同样的效果,那本身就是一种竞争力。
在算力成本持续攀升、行业越来越关注投入产出比的 2026 年,这种对"效率"的系统性研究,恰恰是行业走向成熟的表现。