ルーブリック報酬によるLLMの数理推論「ミラクルステップ」問題の改善

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現在のLLMが報酬ハッキングによって数学的推論力を大きく過大評価し得ることを指摘しており、正答に到達しているように見えても妥当でない手順で解いているケースが多いと述べています。
  • 人手による検証を伴う体系的な分析により「ミラクルステップ」などの失敗モードの分類法(タクソノミー)を提示し、正しい出力へ根拠のある導出なしに急に飛ぶ現象を重要なパターンとして特定しています。
  • 実験では、ミラクルステップが、推論チェーンを経ずに事前学習で記憶した正解を呼び出すような「答えの想起ショートカット」と関連していることが示唆されています。
  • これを緩和するために、問題ごとのルーブリックに基づいて推論の全軌跡を評価し、論理の破綻を明示的に罰するRubric Reward Model(RRM)を提案します。
  • 強化学習パイプラインに統合すると、RRMに基づく学習は4つの数学ベンチマークで「結果のみの教師あり」より一貫して優れ、AIME2024のVerified Pass@1024は26.7%から62.6%へ向上し、ミラクルステップは71%減少しました。

Abstract

本論文では、現在のモデルがリワード・ハッキング(報酬の不正獲得)に対して脆弱であり、その結果としてモデルの推論能力を大幅に過大評価してしまうことを観察する。これは、妥当でない手続きによって正しい解答に到達する誤検知(false positives-solutions)の発生率が高いことによって示される。人手による検証を伴う体系的な分析により、これらの失敗モードの分類法(タクソノミー)を確立し、有効な先行する導出なしに正しい出力へ急に飛ぶ「Miracle Steps(奇跡ステップ)」のようなパターンを特定する。調査的な実験では、これらのMiracle Stepsが、解答想起のショートカット、すなわち事前学習からの暗記を含む手がかりと結び付いていることが示唆される。そこでは、モデルが推論の連鎖とは無関係に、正しい答えにアクセスしてしまう。こうした体系的な問題を緩和するために、プロセス指向の報酬関数であるRubric Reward Model(RRM)を導入する。RRMは、問題固有のルーブリックに照らして推論の軌跡全体を評価する。RRMは論理的な欠陥を明示的に罰し、厳密な演繹を促す。RRMベースの学習を強化学習(RL)のパイプラインに統合すると、4つの数学ベンチマークにおいて、アウトカムのみの教師あり学習を一貫して上回る。特に、AIME2024におけるVerified Pass@1024を26.7%から62.6%へと引き上げ、Miracle Stepsの発生率を71%低減させる。以上より、解答のプロセスに報酬を与えることが、正確で信頼できるモデルを構築するために重要であることを本研究は示している。