GR-Ben：プロセス・リワード・モデルを評価するための汎用推論ベンチマーク

arXiv cs.AI / 2026/5/5

📰 ニュースModels & Research

共有:

要点

この論文では、プロセス・リワード・モデル（PRM）が中間の推論過程における誤りを検出できるかを評価するための、新しいプロセスレベル・ベンチマーク「GR-Ben」を提案しています。
既存ベンチマークは主に数学的推論に焦点を当てているため、より幅広い現実的な推論領域でのPRMのエラー検出能力が十分に検証されていない点が課題として指摘されています。
GR-Benは2つの主要領域（科学とロジック）と9つのサブドメインをカバーし、従来より包括的な評価を可能にします。
22種類のモデル（PRMとLLMの両方）を対象にした実験の結果、数学以外の領域では一般にエラー検出が弱いこと、PRMは知識ベースの誤りの発見が苦手である一方、LLMは計算（コンピュテーション）系の誤りの検出が相対的に弱いことが示されます。
著者らは、GR-Benが汎用領域に向けたPRM研究を促し、最終的にLLMの推論能力の改善につながることを期待しています。

要旨: 現在、プロセス報酬モデル（PRM）は、テスト時のスケーリングにおいて顕著な可能性を示しています。しかし、大規模言語モデル（LLM）は、幅広い推論および意思決定タスクに取り組む際、欠陥のある中間推論ステップを生成することがしばしばあります。そのためPRMには、現実世界のシナリオにおいてプロセスレベルの誤りを検出する能力が求められます。ところが、既存のベンチマークは主として数学的推論に焦点を当てているため、多様な推論シナリオにまたがってPRMの誤り検出能力を包括的に評価できていません。このギャップを埋めるため、2つの主要な推論領域（科学と論理）および9つのサブ領域にわたってPRMの性能を評価することを目的とした、プロセスレベルのベンチマークであるGR-Benを提案します。私たちは、PRMとLLMの両方を含む多様な22モデルに対して大規模な実験を行い、2つの主要な知見を導出しました。（1）数学的推論以外の領域では、既存のPRMおよびLLMの誤り検出能力が、比較すると大幅に弱いことが分かりました。（2）一般に、PRMは知識に基づく誤りの特定が得意ではない一方、LLMは計算に関する誤りの検出において性能が劣ります。GR-Benが、汎用領域に向けたPRMの今後の研究を促し、それによってLLMの推論能力を高めることを期待しています。