アウトカム報酬は検証可能かつ因果的に重要な推論を保証しない

arXiv cs.CL / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Causal Importance of Reasoning(CIR)とSufficiency of Reasoning(SR)の2つの評価指標を提示し、RLVRで学習した連鎖的思考(チェーン・オブ・ソート)が回答の原因となり説明として十分かを検証します。
  • Qwen2.5とReasoningGymを用いた実験では、RLVRがタスク精度を向上させる一方で、CIRやSRが一貫して改善しないことが示され、推論の連鎖がしばしば因果的・証拠的に中核でない可能性が示唆されます。
  • 著者らは、RLVR単独でCIR/SRが低い場合、小量のSFT(教師あり微調整)をRLVRの前に行うことで改善できることを見出します。
  • さらにSFTなしでも、結果ベースの報酬に加えて補助的にCIR/SR報酬を導入することで、RLVRと同等の精度を保ちつつ、因果的に重要で十分な推論を得られることを示します。

Abstract

検証可能な報酬(RLVR)からの強化学習を、いわゆる「思考過程(chain-of-thought)」推論に適用することは、言語モデルのポストトレーニング手順の標準的な一部となっています。一般的な前提は、RLVR を通じて訓練された推論の連鎖が、モデルが回答に到達する仕組みを確実に表しているというものです。本論文では、この前提を批判的に検討するための 2 つの指標を開発します。すなわち、最終回答に対する推論トークンの累積的な効果を測る「推論の因果的重要性(Causal Importance of Reasoning: CIR)」と、推論のみから検証器が曖昧でない答えに到達できるかどうかを測る「推論の十分性(Sufficiency of Reasoning: SR)」です。Qwen2.5 モデルシリーズと ReasoningGym の課題を用いた実験により、次のことがわかりました。(1) RLVR は課題の正確性を改善する一方で、CIR または SR を確実に改善しません。これにより、モデルの性能における推論の役割が疑問視されます。(2) RLVR の前に少量の SFT(教師あり微調整)を行うことが、低い CIR と SR への対策になり得ます。(3) 結果(アウトカム)ベースの報酬に加えて補助的な CIR/SR 報酬を適用することで、SFT なしでも CIR と SR は改善できます。これらの結合報酬は RLVR の正確性と同等の性能を保ちつつ、因果的に重要で、かつ十分な推論も導きます。これらの結果は、RLVR が常に、一般に考えられているような仕方でモデルに推論への依存をもたらすとは限らないことを示していますが、この問題はポストトレーニング手順に対する単純な修正によって解決できることも示しています。