アウトカム報酬は検証可能かつ因果的に重要な推論を保証しない
arXiv cs.CL / 2026/4/27
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Causal Importance of Reasoning(CIR)とSufficiency of Reasoning(SR)の2つの評価指標を提示し、RLVRで学習した連鎖的思考(チェーン・オブ・ソート)が回答の原因となり説明として十分かを検証します。
- Qwen2.5とReasoningGymを用いた実験では、RLVRがタスク精度を向上させる一方で、CIRやSRが一貫して改善しないことが示され、推論の連鎖がしばしば因果的・証拠的に中核でない可能性が示唆されます。
- 著者らは、RLVR単独でCIR/SRが低い場合、小量のSFT(教師あり微調整)をRLVRの前に行うことで改善できることを見出します。
- さらにSFTなしでも、結果ベースの報酬に加えて補助的にCIR/SR報酬を導入することで、RLVRと同等の精度を保ちつつ、因果的に重要で十分な推論を得られることを示します。




