プロセス・リワード・モデルの調査:アウトカム信号から大規模言語モデルのプロセス指導へ

arXiv cs.CL / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、最終回答だけを評価するアウトカム・リワード・モデル(ORM)に対して、LLMの推論をステップまたは軌跡レベルで評価・誘導するプロセス・リワード・モデル(PRM)を整理します。
  • 「生成→学習→活用」の一連のループとして、プロセスデータの作り方、PRMの構築方法、さらにテスト時スケーリングや強化学習での使い方を体系的に示します。
  • PRMの適用例を、数学・コード・テキストに加え、多目的(マルチモーダル)推論、ロボティクス、エージェント型システムまで幅広くまとめています。
  • さらに、新興のベンチマークを概観し、設計空間の整理と、きめ細かい堅牢な推論アラインメントに向けた未解決課題を明確化することを目指します。
  • 全体として、最終回答の監督に留まらず、推論そのものを対象にした指導へとアラインメントを発展させるための研究ロードマップ的位置づけです。

要旨: 大規模言語モデル(LLM)は高度な推論能力を示すものの、従来のアラインメントは依然として主としてアウトカム報酬モデル(ORM)により支配されており、それらは最終的な解答のみを判定します。プロセス報酬モデル(PRM)は、このギャップを埋めるために、推論をステップまたはトラジェクトリのレベルで評価し、導きます。本調査では、プロセスデータを生成する方法、PRMを構築する方法、そしてテスト時スケーリングおよび強化学習においてPRMを用いる方法、という全ループを通じてPRMを体系的に概観します。数学、コード、テキスト、マルチモーダル推論、ロボティクス、エージェントにまたがる応用をまとめ、出現しつつあるベンチマークをレビューします。私たちの目標は、設計空間を明確化し、未解決の課題を明らかにし、今後の研究がきめ細かく堅牢な推論アラインメントへと向かうよう導くことです。