最終結果に導かれたステップのためのプロセス報酬によるLLMの推論

arXiv cs.AI / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの数学タスクに対する既存の強化学習設定がしばしば「結果のみ」の検証に依存しており、多段階の推論に対する疎なフィードバックや、中間での誤りに対する洞察が限定的であると主張する。
さらに、プロセス報酬モデル（PRM）に固有の重要なリスクを指摘する。すなわち、PRMを最終目標の絶対的な最適化対象として用いると、最終的な正確さと不整合になり、「もっともらしいが誤り」である推論や、報酬の不正利用（reward hacking）を誘発し得る。
著者らは、PRMスコアを「結果の同一グループ内」での相対的な嗜好（プレファレンス）として用いることで、結果の正しさを支配的にしつつも、より密な中間ステップの教師信号を活用する枠組みPROGRSを提案する。
PROGRSでは、不正な軌跡に対するPRMスコアの体系的なバイアスを除去するための「アウトカム条件付きセンタリング」を導入し、凍結した量子回帰PRMとマルチスケールのコヒーレンス評価器を組み合わせる。
追加の目的関数や学習可能なコンポーネントを伴わずにGRPOへ統合することで、PROGRSは複数の数学ベンチマーク（MATH-500、AMC、AIME、MinervaMath、OlympiadBenchなど）においてPass@1を改善し、さらに少ないロールアウトでより強い結果を達成する。

要旨: 大規模言語モデルにおける数学的推論は、検証可能な報酬を用いた強化学習によって大幅に改善してきた。ここでは最終回答が自動的に検査され、信頼できる学習用の信号へと変換できる。これまでの多くのようなパイプラインは、到達結果の正しさのみに最適化しているため、長く複数ステップにわたる解法に対してはフィードバックが疎になり、途中の推論における誤りに関する十分な指針が得られない。そこで最近の研究では、途中ステップを評価するプロセス報酬モデル（PRM）を導入し、より密な教師信号を提供する。実際には、PRMのスコアは最終的な正しさとしばしば完全には整合しておらず、誤った答えにたどり着くとしても局所的には流暢な推論を報酬してしまうことがある。このような信号を絶対報酬として最適化すると、流暢さゆえの失敗パターンが増幅され、報酬の不正操作（reward hacking）を誘発する可能性がある。
本研究では、結果の正しさを支配的に保ちつつPRMを活用する枠組みPROGRSを提案する。PROGRSは、プロセス報酬を絶対的な目標というよりも、結果グループ内での相対的な嗜好（relative preferences）として扱う。誤った軌跡のPRMスコアを各プロンプト群内で平均ゼロになるようにシフトする、アウトカム条件付きセンタリング（outcome-conditioned centering）を導入する。これにより情報を保持したまま体系的なバイアスを除去できる。PROGRSは、凍結した量子回帰PRMとマルチスケールのコヒーレンス評価器を組み合わせる。得られたセンタリング済みのプロセスボーナスを、補助目的や追加の学習可能コンポーネントなしで、Group Relative Policy Optimization（GRPO）へ統合する。MATH-500、AMC、AIME、MinervaMath、OlympiadBenchにおいて、PROGRSはアウトカムのみのベースラインに比べてPass@1を一貫して改善し、より少ないロールアウトでより強い性能を達成する。これらの結果は、アウトカム条件付きセンタリングによって、数学的推論におけるプロセス報酬を安全かつ効果的に利用できることを示している。