要旨: オンポリシー強化学習は、大規模言語モデルにおける推論アラインメントのための支配的なパラダイムとなっている一方で、その疎な結果レベル報酬は、トークンレベルの信用割当を著しく困難にしています。オンポリシー蒸留(OPD)は、教師モデルからの密なトークンレベルKL教師信号を導入することでこれを緩和しますが、通常はこの教師信号をすべてのロールアウトに一様に適用し、信号の質に本質的な違いがあることを無視しています。我々は、正しさに基づいてオンポリシーのロールアウトを2つの補完的な教師経路へ振り分ける、二経路の適応的学習フレームワークであるSignal-Calibrated On-Policy Distillation Enhancement(SCOPE)を提案します。不正な軌跡に対しては、教師のパープレキシティに基づいて重み付けしたKL蒸留を行い、教師が真に修正能力を示している事例を優先しつつ、信頼できない誘導を低減します。一方、正しい軌跡に対しては、学生のパープレキシティに基づいて重み付けしたMLEを適用し、既に習得済みのものを過剰に強化するのではなく、能力の境界における低自信サンプルに強化を集中させます。両経路は、プロンプト間での固有の難易度ばらつきを考慮しつつ、重み分布を適応的にキャリブレーションするためのグループレベル正規化を用います。6つの推論ベンチマークに対する大規模な実験により、SCOPEは競合するベースラインに対してAvg@32で平均相対改善11.42%、Pass@32で7.30%を達成し、その一貫した有効性が示されました。
SCOPE:デュアルパスの適応的重み付けによる、信号キャリブレーションを用いたオンポリシー蒸留強化
arXiv cs.LG / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- SCOPEは、オンポリシー蒸留における重要な制約として、ロールアウト全体に一様な重み付けを行うのではなく、オンポリシーの信号の質に応じてトークンレベルのKL教師信号をキャリブレーションすることで改善する。
- 提案手法ではロールアウトを2つのパスに分割する。誤った軌跡には、教師のパープレキシティに基づく重み付けを行ったKL蒸留を適用して、教師が信頼できる形で修正できるケースを強調する。一方、正しい軌跡には、学生のパープレキシティに基づく重み付けを行ったMLEを用いて、学習を境界付近の、低い自信度に相当する例へ集中させる。
- SCOPEはさらに、固有の難易度が異なるプロンプト間で重み分布を調整するグループレベル正規化によって学習を安定化させる。
- 6つの推論ベンチマークでの実験では一貫した改善が報告されており、競合するベースラインに対してAvg@32で平均相対改善11.42%、Pass@32で7.30%を達成している。
- 全体として、この論文は、オンポリシーRLセットアップに典型的な疎な、結果(アウトカム)レベルの報酬のもとで推論整合性を改善するために、学習時のルーティングと適応的重み付け戦略を提案している。




