正しいロールアウトから学ぶ：PPOベースのLLM事後学習におけるデータ帰属

arXiv cs.LG / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、標準的なPPOによる事後学習が、ロールアウトバッファ内のノイズの多い、または不忠実なエピソードによって損なわれ得ると主張しており、これにより最適化のシグナルが弱まり、学習が遅くなる。
勾配ベースの影響度（influence）スコアリングを用いて、検証用勾配と反対方向に整列している（アンチアラインされた）軌跡を持つエピソードを除去する Influence-Guided PPO（I-PPO）を提案する。
このフィルタリングは、不忠実な連鎖的思考（CoT）推論を減らしつつ、モデル全体の品質を向上させることを目的として設計されている。
論文中の実験結果では、I-PPOがSFTおよびPPOのベースラインのいずれも上回り、さらにエピソードのフィルタリングが学習効率を高めるための内在的な早期終了（early-stopping）メカニズムとして機能することが示されている。

要旨: Proximal Policy Optimization（PPO）のような従来の強化学習（RL）アルゴリズムは通常、生成されたエピソードがすべて有益な最適化シグナルを提供すると仮定して、全ロールアウトバッファで学習を行います。しかし、これらのエピソードにはしばしばノイズや不忠実な推論が含まれており、モデルの性能を低下させ、学習を遅らせます。本論文では、RLの事後学習（post-training）ループにデータ帰属（data attribution）を統合する新しい枠組みである\textbf{Influence-Guided PPO（I-PPO）}を提案します。勾配に基づく近似を用いて各エピソードの影響スコア（influence score）を計算することで、I-PPOは検証勾配（validation gradient）と反りのある（anti-aligned）エピソードを特定し、それらを除去します。実験の結果、I-PPOはSFTおよびPPOのベースラインに対して一貫して優れた性能を示しました。さらに、提案するフィルタリング手順が固有の早期打ち切り（intrinsic early stopping）メカニズムとして機能し、学習効率を加速させつつ、不忠実なCoT推論を効果的に低減できることを示します。