広告

正しいロールアウトから学ぶ:PPOベースのLLM事後学習におけるデータ帰属

arXiv cs.LG / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、標準的なPPOによる事後学習が、ロールアウトバッファ内のノイズの多い、または不忠実なエピソードによって損なわれ得ると主張しており、これにより最適化のシグナルが弱まり、学習が遅くなる。
  • 勾配ベースの影響度(influence)スコアリングを用いて、検証用勾配と反対方向に整列している(アンチアラインされた)軌跡を持つエピソードを除去する Influence-Guided PPO(I-PPO)を提案する。
  • このフィルタリングは、不忠実な連鎖的思考(CoT)推論を減らしつつ、モデル全体の品質を向上させることを目的として設計されている。
  • 論文中の実験結果では、I-PPOがSFTおよびPPOのベースラインのいずれも上回り、さらにエピソードのフィルタリングが学習効率を高めるための内在的な早期終了(early-stopping)メカニズムとして機能することが示されている。

要旨: Proximal Policy Optimization(PPO)のような従来の強化学習(RL)アルゴリズムは通常、生成されたエピソードがすべて有益な最適化シグナルを提供すると仮定して、全ロールアウトバッファで学習を行います。しかし、これらのエピソードにはしばしばノイズや不忠実な推論が含まれており、モデルの性能を低下させ、学習を遅らせます。本論文では、RLの事後学習(post-training)ループにデータ帰属(data attribution)を統合する新しい枠組みである\textbf{Influence-Guided PPO(I-PPO)}を提案します。勾配に基づく近似を用いて各エピソードの影響スコア(influence score)を計算することで、I-PPOは検証勾配(validation gradient)と反りのある(anti-aligned)エピソードを特定し、それらを除去します。実験の結果、I-PPOはSFTおよびPPOのベースラインに対して一貫して優れた性能を示しました。さらに、提案するフィルタリング手順が固有の早期打ち切り(intrinsic early stopping)メカニズムとして機能し、学習効率を加速させつつ、不忠実なCoT推論を効果的に低減できることを示します。

広告