SFTとRLをつなぐ：堅牢な推論のためのダイナミック・ポリシー最適化

arXiv cs.LG / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

大規模言語モデルのポストトレーニング手法は、バイアス–分散のジレンマに直面している：教師あり微調整（SFT）は安定しているがバイアスが生じ、一方で強化学習（RL）は探索するものの勾配分散が高い。
本論文は、Group Alignment Loss（GAL）、Multi-Teacher Distillation、および報酬に基づく活用–探索のガーティング機構を通じて、この対立を解消する統一フレームワークDYPO（Dynamic Policy Optimization）を提案する。
理論的分析では、DYPOが、SFTとRLの信号をどのように組み合わせるかを構造化することで、全体の分散を抑えつつ、フィッティング・バイアスを線形に低減できると主張している。
複雑な推論や分布外（out-of-distribution）タスクでの実験により、DYPOは従来の逐次的パイプラインと比べて、平均性能をそれぞれ4.8%および13.3%改善することが示される。
著者らはDYPOの公開コードを提供しており、研究者が自身のLLMポストトレーニング環境でこの手法を検証し、拡張できるようになっている。

概要: 大規模言語モデル（LLM）の事後学習パラダイム、主に教師あり微調整（SFT）および強化学習（RL）は、根本的なジレンマに直面している。SFTは安定性（分散が低い）を提供する一方で、高い適合バイアスに悩まされる。対照的にRLは探索を可能にする（バイアスが低い）が、高い勾配分散に苦しむ。既存の統一的な最適化戦略は、多くの場合、素朴な損失重み付けを用いており、これらの異なる勾配信号間に存在する統計的な対立を見落としている。本論文では、このバイアス分散トレードオフに関する厳密な理論解析を提示し、その対立を構造的に緩和するための統一フレームワークである\textbf{DYPO}（Dynamic Policy Optimization）を提案する。DYPOは3つの中核コンポーネントを統合する。(1) RLの勾配分散を大幅に低減するために、内在する群（グループ）のダイナミクスを活用する\textit{Group Alignment Loss (GAL)}、(2) 多様な推論経路によってSFTの適合バイアスを補正する\textit{Multi-Teacher Distillation}、(3) 報酬フィードバックに基づいて安定したSFTと探索的なRLの間を適応的に裁定する\textit{Dynamic Exploitation-Exploration Gating}である。理論解析により、DYPOは適合バイアスを線形に低減し、全体の分散を最小化することが確認される。広範な実験により、DYPOが従来の逐次パイプラインを大きく上回り、複雑な推論ベンチマークで平均4.8\%の改善、分布外タスクで13.3\%の改善を達成することが示される。コードは https://github.com/Tocci-Zhu/DYPO で公開されている。