対比的相互情報量による効率的プロセス報酬モデリング

arXiv cs.CL / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、チェーン・オブ・ソートに対するプロセス報酬モデル（PRM）の学習コストが高い問題に取り組み、手順（ステップ）ごとの人手による報酬注釈や、高価なモンテカルロ（MC）ロールアウトを回避することでこれを解決することを目的とする。
モデル内部の確率を用いて、あるステップが正しい最終回答にどれだけ寄与するかを、ハードネガティブな代替案と対比しながら推定する、自動報酬ラベリング手法として対比的点ごとの相互情報量（CPMI）を提案する。
CPMIは、推論ステップがそのステップと目標となる回答との相互情報量をどれだけ増加させるかを計算し、この対比的な信号を、手順レベルの教師あり学習に用いる信頼できる代理的な報酬として扱う。
実験では大幅な効率向上が報告され、MC推定に比べてデータセット構築時間を84%削減し、トークン生成を98%削減しつつ、プロセスレベルおよび数学的推論の評価精度を改善する。

要旨: 近年の研究では、プロセス・リワード・モデル（PRM）やその他の検証器モデルを用いて、連鎖的思考（CoT）軌跡における中間推論ステップを検証することに多大な取り組みがなされてきました。しかし、PRMの学習には通常、人手のアノテータが各推論ステップに報酬スコアを割り当てる必要があり、これはコストがかかりかつ時間のかかる作業です。既存の自動手法、例えばモンテカルロ（MC）推定でも、LLMのロールアウトを繰り返す必要があるため、大きな計算資源を要求します。これらの制約を克服するために、我々はコントラスト的な点ごとの相互情報量（CPMI）を提案します。これは、モデル内部の確率を活用してステップ単位の教師信号を推論しつつ、データセットのアノテーションにかかる計算負担を大幅に削減する、新しい自動報酬ラベリング手法です。 CPMIは、推論ステップが、ハードネガティブな代替案に比べて、そのステップと正しい目標となる答えの間の相互情報量をどれほど増加させるかを定量化します。このコントラスト信号は、最終解に対するそのステップの寄与の代理として機能し、信頼性の高い報酬をもたらします。実験結果は、CPMIベースのラベリングが、MC推定と比較してデータセット構築時間を84%削減し、トークン生成を98%削減することを示しています。さらに、プロセスレベルの評価および数学的推論ベンチマークにおいて、より高い精度を達成しています。

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演

日経XTECH

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

日経XTECH

対比的相互情報量による効率的プロセス報酬モデリング

要点

関連記事

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

防衛大手ラインメタル登壇、兵器にもソフト定義 ハノーバーメッセ注目講演

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演