LLMのRLVRトレーニングは一般的なQAの思考能力を向上させない:評価手法と簡単な解決策

arXiv cs.CL / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、検証可能なタスクにおける推論を改善するRLVR(検証可能な報酬からの強化学習)が、一般質問応答(GQA)にも転移して性能を確実に高めるかどうかを検証し、そのような確実な向上は見られないことを示す。
  • 生成した「思考」コンテキストを能力の異なる別のLLMに入力して、推論の途中の質を世代をまたいで比較するCross-Generation評価フレームワークを提案する。
  • 評価の結果、推論プロセスがGQAに対しては検証可能なタスクほど効果的ではないことが分かり、モデルが報酬駆動の検証可能な設定ではなお良いスコアを得られる「推論ショートカット」を学習している可能性が示唆される。
  • 著者らはまた、GQAに対する直接のRLはRLVRより効果が低いことを観察し、GQAの報酬構造は高品質な推論というよりショートカットによって満たされ得るという仮説を立てる。
  • これに対処するため、本論文はSTART(Separated Thinking And Response Training)を提案する。これは最終回答で定義された報酬を用いて、まず思考モジュールを(次いで応答を)別々に訓練し、複数のGQAベンチマークと複数のRLアルゴリズムにおいて、途中の思考の質と最終回答の両方を改善する。