DeReason: 難易度を意識したカリキュラムは一般的推論のための分離型SFT-then-RL訓練を改善する
arXiv cs.CL / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- DeReasonは、LLMベースのスコアリングを用いて訓練データを推論を要するサブセットと推論を要しないサブセットの2つに分割し、SFTとRL訓練を適合させる難易度認識データ分離戦略を導入する。
- 本論文は、一般的なSTEM領域において基盤モデルに直接RLを適用するのはサンプル効率が悪く、中程度品質の応答ではSFTに劣ることが多いが、連続するSFTの後にRLを適用することで追加の利得が得られる可能性があることを示す。
- 広範なカバー範囲の推論非集約問題をSFTへ割り当てて基礎知識を構築し、難易度の高い問題をRLに温存することで、DeReasonはSFTのみ、RLのみ、またはランダム分割ベースラインよりも良い性能を達成する。
- STEMと数学のベンチマークにおける広範な実験は、この分離型カリキュラム訓練が実践的な後訓練レシピとして、一般的な推論の向上においてSFTのみ、RLのみ、またはランダム分割のベースラインよりも有効であることを示している。
検証可能報酬を用いた強化学習(RLVR)は、特に数学とコーディングにおいて、大規模言語モデルの推論能力を引き出す強力なパラダイムとして浮上しています。最近の取り組みはこのパラダイムをより広い一般科学(STEM)領域へ拡張していますが、これらの文脈における監視付きファインチューニング(SFT)とRLの複雑な相互作用は未だ十分に検討されていません。本論文では、制御された実験を通じて重要な課題を明らかにします。一般的なSTEM領域において、基盤モデルに直接RLを適用することはサンプル効率が非常に悪く、中程度品質の応答ではSFTに一貫して劣ることが多い、ということです。しかし、連続するSFTの後にRLを適用することで性能をさらに改善できる可能性があり、二つの段階は補完的な役割を果たし、両者の間で訓練データをどう割り当てるかが重要であることを示唆します。したがって、一般的な推論のための難易度ベースのデータ分離戦略であるDeReasonを提案します。DeReasonは、LLMベースのスコアリングによって推論強度を推定し、それに基づいて訓練データを推論集約的サブセットと推論非集約的サブセットに分割します。広範囲をカバーする非推論的問題をSFTに割り当てて基礎的なドメイン知識を確立し、難易度の高い問題の焦点を絞ったサブセットをRLに確保して複雑な推論を育成します。我々は、この原理的な分離がデータをランダムに分割して連続的なSFTとRLを行う場合よりも良い性能を生むことを示します。一般的なSTEMと数学のベンチマークにおける広範な実験は、我々の分離型カリキュラム訓練がSFTのみ、RLのみ、またはランダム分割ベースラインよりも有意に優れていることを示しています。我々の研究は、一般的な推論のためのSFTとRLの相互作用を体系的に検証し、非常に有効で汎用的な訓練後のレシピを提供します。
関連記事
Is AI becoming a bubble, and could it end like the dot-com crash?
Reddit r/artificial

Externalizing State
Dev.to

My AI Does Not Have a Clock
Dev.to
How to settle on a coding LLM ? What parameters to watch out for ?
Reddit r/LocalLLaMA

Andrej Karpathy's autonomous AI research agent ran 700 experiments in 2 days and gave a glimpse of where AI is heading
Reddit r/artificial