SUPERNOVA:自然な指示に対する強化学習でLLMの一般的推論を引き出す

arXiv cs.CL / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、形式的な推論(数学/コード)に対する強化学習と検証可能な報酬(RLVR)を、因果関係や時間的理解を含むより一般的な推論へと拡張するデータキュレーションの枠組みSUPERNOVAを提案する。
  • 一般的RLVRの主なボトルネックは、高品質で検証可能な学習データが乏しいことだと主張し、専門家が注釈した命令チューニング用データセットを、RLVR向けの学習シグナルへ適応させるアプローチを導入する。
  • 100回超の制御された強化学習実験にわたり、データ設計上の選択—元となるタスクの選定、タスク混合戦略、合成的介入—が下流の推論性能にどう影響するかを分析する。
  • 結果は、元タスクの選定が極めて重要であり、全体の平均性能に基づく手法よりも、特定のターゲットタスクに対する性能に基づいてタスクを選ぶ方が優れていることを示す。
  • SUPERNOVAで訓練されたモデルは、BBEH、Zebralogic、MMLU-Proといったベンチマークで、強力なベースライン(例:Qwen3.5)を上回る。相対改善はBBEHで最大52.8%に達し、コード/データはGitHubで公開される。

要旨: 強化学習における検証可能な報酬(RLVR)は、数学やコードといった形式的領域における大規模言語モデル(LLM)の推論を大きく改善してきました。これらの進歩にもかかわらず、LLMは因果推論や時間理解といった能力を必要とする一般的な推論課題において、依然として苦手意識があります。一般推論へRLVRを拡張することは、本質的に、多様な推論スキルにまたがる高品質で検証可能な学習データが欠けていることによって根本的に制約されます。この課題に対処するため、私たちは一般推論の強化を目的としたRLVR向けデータキュレーションの枠組みであるSUPERNOVAを提案します。私たちの重要な洞察は、専門家によって注釈された真値(ground-truth)を含むinstruction-tuningデータセットが、RLVR向けに体系的に適応可能な豊かな推論パターンをエンコードしているという点です。これを検討するために、データ設計の選択が下流の推論性能にどのように影響するかを分析するべく、100件以上の制御されたRL実験を実施します。具体的には、次の3つの主要因を調査します:(i)ソース課題の選択、(ii)課題の混合戦略、(iii)データ品質を改善するための合成的介入です。分析の結果、ソース課題の選択は自明ではなく、下流の推論性能に大きな影響を与えることが明らかになりました。さらに、個々のターゲット課題に対する性能に基づいてタスクを選択することは、全体の平均性能に基づく戦略よりも優れています。最後に、SUPERNOVAで学習したモデルは、BBEH、Zebralogic、MMLU-Proといった難しい推論ベンチマークにおいて、強力なベースライン(例: Qwen3.5)を上回ります。特に、モデルサイズ全体で、SUPERNOVAによる学習はBBEHにおいて最大52.8%の相対的改善をもたらし、RLVRのための原理に基づくデータキュレーションの有効性を示しています。私たちの結果は、人手で注釈されたリソースをキュレーションするための実践的な洞察を提供し、RLVRを一般推論へ拡張することを可能にします。コードとデータは https://github.com/asuvarna31/supernova で公開されています。