オンポリシー蒸留を再検討:経験的な失敗モードと簡単な改善策

arXiv cs.LG / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • LLMの事後学習におけるオンポリシー蒸留(OPD)は、固定された教師のトレースではなく、学生のロールアウトに対して教師のフィードバックを評価できるため魅力的だが、一般的なサンプリングされたトークンの変種は、ロールアウトが教師に典型的なプレフィックスから逸れていく長いホライゾン設定では脆くなる。
  • 本論文は、推定量と実装の観点を分析し、トークンレベルのOPDが系列レベルのreverse-KLと比べてバイアスを持つ一方、より厳密な最悪ケースの分散上界を提供することを指摘する。さらに、より強い将来報酬との結合は勾配分散を増大させ学習を不安定化させることを、実験結果は示している。
  • 著者らは、サンプリングされたトークンのOPDにおける具体的な失敗モードを3つ挙げる。すなわち、1トークン信号の不均衡、学生が生成したプレフィックスに対する教師ガイダンスの信頼性の低さ、そしてトークナイザ/特殊トークンの不一致による歪みである。
  • 著者らは、教師のtop-Kの局所的なサポートに対するマッチングを、上位pによるロールアウトサンプリングと打ち切ったreverse-KLによって実現し、さらに特殊トークンをマスクするという、シンプルな改善策を提案する。これにより、最適化の安定性と、数学およびエージェント的なマルチタスクにおける下流性能が向上する。
広告