プロセス・リワード・モデル向けの、制御可能かつ検証可能なプロセス・データ合成

arXiv cs.AI / 2026/5/5

📰 ニュースModels & Research

共有:

要点

本論文は、プロセス・リワード・モデル（PRM）向けのプロセス監督データを、制御可能かつ検証可能に合成する手法を提案し、従来手法の限界に対処します。
正しいシンボリック推論チェーンを構築したうえで、テンプレートを意識した誤りを中間ステップに注入し、壊れた状態でその後の手順を再計算した後、その注入ステップが前半（prefix）から導出できないことを検証します。
その結果、最初の誤りの時点ではprefix-invalidとなる一方、シンボリック再計算後は軌跡整合性（trajectory-consistent）を保つ対となる軌跡を生成し、それをPRMの訓練・評価用に整合した自然言語のプロセスへ変換します。
実験では、合成データにより論理推論ベンチマークでBest-of-8のリランキング性能が向上し、数学的推論にも転移することが示されます。
ステップ単位の評価では、全体のステップ分類よりも「最初の誤り」の特定（ローカライゼーション）がはるかに難しいことが分かり、より細粒度で検証可能なプロセス監督の必要性を浮き彫りにしています。