要旨: 近年の研究では、プロセス・リワード・モデル(PRM)やその他の検証器モデルを用いて、連鎖的思考(CoT)軌跡における中間推論ステップを検証することに多大な取り組みがなされてきました。 しかし、PRMの学習には通常、人手のアノテータが各推論ステップに報酬スコアを割り当てる必要があり、これはコストがかかりかつ時間のかかる作業です。 既存の自動手法、例えばモンテカルロ(MC)推定でも、LLMのロールアウトを繰り返す必要があるため、大きな計算資源を要求します。 これらの制約を克服するために、我々はコントラスト的な点ごとの相互情報量(CPMI)を提案します。これは、モデル内部の確率を活用してステップ単位の教師信号を推論しつつ、データセットのアノテーションにかかる計算負担を大幅に削減する、新しい自動報酬ラベリング手法です。 CPMIは、推論ステップが、ハードネガティブな代替案に比べて、そのステップと正しい目標となる答えの間の相互情報量をどれほど増加させるかを定量化します。 このコントラスト信号は、最終解に対するそのステップの寄与の代理として機能し、信頼性の高い報酬をもたらします。 実験結果は、CPMIベースのラベリングが、MC推定と比較してデータセット構築時間を84%削減し、トークン生成を98%削減することを示しています。 さらに、プロセスレベルの評価および数学的推論ベンチマークにおいて、より高い精度を達成しています。
対比的相互情報量による効率的プロセス報酬モデリング
arXiv cs.CL / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、チェーン・オブ・ソートに対するプロセス報酬モデル(PRM)の学習コストが高い問題に取り組み、手順(ステップ)ごとの人手による報酬注釈や、高価なモンテカルロ(MC)ロールアウトを回避することでこれを解決することを目的とする。
- モデル内部の確率を用いて、あるステップが正しい最終回答にどれだけ寄与するかを、ハードネガティブな代替案と対比しながら推定する、自動報酬ラベリング手法として対比的点ごとの相互情報量(CPMI)を提案する。
- CPMIは、推論ステップがそのステップと目標となる回答との相互情報量をどれだけ増加させるかを計算し、この対比的な信号を、手順レベルの教師あり学習に用いる信頼できる代理的な報酬として扱う。
- 実験では大幅な効率向上が報告され、MC推定に比べてデータセット構築時間を84%削減し、トークン生成を98%削減しつつ、プロセスレベルおよび数学的推論の評価精度を改善する。




