騰訊混元の新論文：On-Policy Distillationはどれだけの効率を解放できるのか？

モデル蒸留（Knowledge Distillation）はもはや目新しい技術ではない。簡単に言えば、大規模モデル（教師）が小規模モデル（生徒）を教え、小規模モデルがコンパクトなサイズを保ちつつ、大規模モデルの能力に可能な限り近づけるというものだ。

しかし、騰訊混元チームのこの新論文は、これまで体系的に研究されてこなかった問いを投げかけている：On-Policy設定下で蒸留を行う場合、一体どれだけの「ロックされた」モデル効率を解放できるのだろうか？

On-Policy Distillation とは？

まず背景を説明しよう。

強化学習において、On-Policyとはエージェントが現在のポリシーによって生成されたデータのみを使用して自身を更新することを意味する。Off-Policyでは、過去のあらゆるポリシーによって生成されたデータを使用できる。

On-Policy Distillationの核心的な考え方は以下の通りだ：固定されたデータセット上ではなく、モデル自身が生成したデータ上で蒸留学習を行う。

これは直感的には理にかなっているように思える。モデルが「得意とする領域」で学習すれば、より効率的であるはずだ。しかし問題は、実際にどれほど効果的なのか？どのような条件下で有効なのか？異なる戦略間での効率の差はどれほど大きいのか？ということだ。

これまで、これらの問いに体系的に答えた者はいなかった。

論文の核心的な発見

騰訊混元チームは多数の実験を行い、特に注目すべきいくつかの発見を導き出した：

第一に、On-Policy蒸留の効率優位性は均一ではない。 特定のタスクでは、On-Policy蒸留はOff-Policy蒸留に比べて効率の向上が非常に顕著である一方、他のタスクでは差が小さい。これは、蒸留戦略の選択はタスクの特性に合わせてカスタマイズする必要があり、「万能な」解決策は存在しないことを示している。

第二に、「効率を解放する」鍵はデータ分布の一致度にある。 蒸留データの分布が、モデルが実際の使用時に遭遇するデータ分布と高度に一致している場合、On-Policy蒸留の優位性は最大となる。これは直感的にも理解しやすい。練習する内容と試験の内容が近ければ近いほど、効果が高まるのは当然だ。

第三に、反復的な蒸留は一括蒸留よりも効果が高い。 論文によると、多段階の反復を通じて段階的に蒸留を行う（各ラウンドで更新されたモデルを使用して新しい蒸留データを生成する）ことで、モデルの潜在能力を持続的に引き出すことができる。このプロセスは「自己向上」に似ており、各ラウンドが前ラウンドよりも優れた結果をもたらす。

業界への意義

本論文の価値は学術的な発見にとどまらず、実際のエンジニアリング実践に対する指導的意義にもある。

コスト最適化。 大規模モデルのトレーニングコストは高騰し続けており、トレーニング効率を向上させるあらゆる手法には直接的な経済的価値がある。On-Policy蒸留が同等のパフォーマンスを維持しつつトレーニングステップ数を削減できるなら、節約される計算リソースと時間は確実に実利となる。

小規模モデルの能力解放。 多くのシナリオでは、最大規模のモデルを使用することはできない（コスト、レイテンシ、デプロイの制約による）。蒸留は、小規模モデルが大規模モデルに近い能力を獲得するための鍵となる技術だ。On-Policy蒸留の効率の境界を理解することで、「モデルサイズ」と「パフォーマンス」の間でより精密なトレードオフを行うことが可能になる。

RLHFプロセスの最適化。 On-Policy蒸留の考え方は、RLHFにおけるPPOトレーニングと類似している。どちらも現在のポリシーに基づいてデータを生成し、モデルを更新するものだ。本論文の発見は、RLHFプロセスの最適化に対する参考資料となる可能性がある。

警戒すべき点

もちろん、本論文の結果に対しては冷静な姿勢を保つ必要がある：

実験範囲の限界。 論文の結論は特定のモデルアーキテクチャとタスク設定に基づいている。異なるモデルや異なるドメインに適用した場合、結論が完全に当てはまるとは限らない。

計算コストのトレードオフ。 On-Policy蒸留は効率を向上させる可能性があるものの、各ラウンドでモデルによるデータ生成が必要であり、この生成プロセス自体にもコストがかかる。実際の応用においては、「蒸留による利益」と「生成コスト」を総合的に評価する必要がある。

過学習のリスク。 モデル自身が生成したデータ上で繰り返し学習を行うと、特定のデータ分布に過度に適応し、汎化能力が低下する可能性がある。論文ではいくつかの緩和策が言及されているが、実際のデプロイメントにおいては慎重な検証が依然として必要である。

最後に

騰訊混元チームのこの論文の最大の貢献は、おそらく特定の技術指標ではなく、これまで見過ごされてきた問題を表舞台に引き上げたことにあるだろう。

過去数年間、業界は「より大きなモデル、より多くのデータ、より強力な計算リソース」の追求に邁進してきた。しかし、この論文は私たちに効率も同様に重要であることを思い出させてくれる。より少ないリソースで同等の効果を達成できるなら、それ自体が競争力となる。

計算リソースのコストが上昇し続け、業界が投資対効果（ROI）をますます重視する2026年において、このような「効率」に対する体系的な研究こそが、業界が成熟に向かっている証なのである。

On-Policy Distillation とは？

論文の核心的な発見

業界への意義

警戒すべき点

最後に

関連コンテンツ

CiteVQA：OpenDataLabが公開したドキュメントインテリジェンスのベンチマーク、AIの引用をすべて根拠追跡可能に

CLI-Anythingが1週間で1000スター急増：全ソフトウェアを「Agentネイティブ」へ、香港大学チームの新アプローチ

MMSkills：上海交通大学が視覚エージェントの能力を「スキルパック」に分解、マルチモーダルエージェントの新パラダイム