緩和されたオンポリシー蒸留による推論の効率的なスケーリング

arXiv cs.LG / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

論文は REOPOLD (Relaxed On-Policy Distillation) を紹介し、オンポリシー蒸留を教師-学生の対数尤度比をトークン報酬として用いるポリシー最適化として再定義します。
最適化を安定させるために、混合ベースの報酬クリッピングとエントロピーに基づくトークンレベルの動的サンプリングを通じて、標準のオンポリシー蒸留の厳格な模倣制約を緩和します。
学習中の探索と洗練のバランスを取るための統一された探索から洗練へのトレーニング戦略を採用しています。
実証的には、REOPOLDは学習時のサンプル効率を6.7〜12倍向上させ、推論時のスケーリングを約3.32倍向上させ、7Bの学生モデルが数学、視覚、およびツール使用タスクを横断する視覚的推論で32Bの教師と同等の性能を発揮することを可能にします。

オンポリシー蒸留は、容量制約を受けるモデルへ推論能力を移転させるうえで極めて重要だが、不安定性とネガティブ転移が生じやすい。オンポリシー蒸留は、理論的にも実証的にも、教師-学生の対数尤度比がトークン報酬として機能するポリシー最適化の一形態として解釈できることを示す。これを洞察として、REOPOLD（Relaxed On-Policy Distillation）という枠組みを導入し、標準的なオンポリシー蒸留の厳格な模倣制約を緩和することで最適化を安定化させる。具体的には、REOPOLDは混合ベースの報酬クリッピング、エントロピーに基づくトークンレベルの動的サンプリング、および統一された探索から洗練へのトレーニング戦略を通じて、教師からの報酬を控えめかつ選択的に活用する。実証的には、REOPOLDは学習時のサンプル効率を高め、推論時のテスト時スケーリングを向上させる。数学的・視覚的・エージェント的ツール使用推論タスクにまたがって効果が現れる。具体的には、REOPOLDは最近の強化学習アプローチを上回り、6.7〜12倍のサンプル効率を達成し、7Bの学生モデルが32Bの教師と視覚的推論で同等の性能を持つことを可能にし、推論速度を約3.32倍に向上させる。