GRPO-VPS:正しい推論プロセスを検証可能に監督することで、効果的な推論のためのグループ相対ポリシー最適化を強化

arXiv cs.LG / 2026/4/23

📰 ニュースModels & Research

要点

  • 本論文は、学習済み報酬モデルではなく検証可能な報酬(検証)に基づくプロセス監督を LLM の推論に取り入れ、Group Relative Policy Optimization(GRPO)を改善する手法を提案します。
  • 生成を離散的なステップに分割し、各区切り点で正解を後ろに付加したときの条件付き確率を追跡することで、GRPO が抱える中間推論ステップに対する信用割当の弱さを補います。
  • 提案手法はモデルフリーで、推論軌跡に沿った「正解への信念(確率)」を検証可能に計測するため、モンテカルロ・ロールアウトや補助モデルに由来する高コストな中間監督を不要にします。
  • 数学系および一般ドメインのベンチマークで GRPO を一貫して上回り、精度向上と推論長の短縮が観測されることから、有効性と汎化の高さが示されています。

要旨: 強化学習における検証可能な報酬(RLVR)は、学習した報酬モデルではなく、直接的な結果検証を活用することで、大規模言語モデル(LLM)の推論能力を前進させてきました。このパラダイムに基づき、グループ相対方策最適化(GRPO)は批評家(critic)モデルの必要をなくしますが、中間ステップに対する無差別なクレジット割り当てにより、効果的な推論戦略を特定する能力が制限され、また考えすぎ(overthinking)を招きます。本研究では、推論の軌跡全体を通じて、モデルが正しい答えに対して抱く信念を調べる(probing)ことで、モデル非依存かつ検証可能なプロセスの監督を導入します。生成を離散的なステップに分割し、各セグメント境界に付加された正しい答えに対する条件付き確率を追跡することにより、解釈可能なセグメント単位の進捗指標を効率的に計算し、GRPOの軌跡レベルのフィードバックを改善します。この手法により、コストの高いモンテカルロ・ロールアウトや補助モデルから導かれる中間監督を必要とせずに、より狙いを定めたサンプル効率の高い方策更新を可能にします。数学および一般領域のベンチマークに関する実験では、多様なモデルにわたってGRPOより一貫した改善が示されました。数学タスクでは最大2.6ポイントの精度向上と推論長の13.7%削減、一般領域タスクでは最大2.4ポイントと4%の改善が得られ、強い汎化性能が実証されています。