推論SFTにおける汎化の再考:最適化・データ・モデル能力に関する条件付き分析

arXiv cs.AI / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、教師あり微調整(SFT)が記憶し、強化学習(RL)が汎化するという一般的な事後学習(post-training)主張に異議を唱え、推論SFTは特定の条件下であればドメインを越えて汎化しうることを示す。
  • 研究では、学習中にクロスドメイン汎化が「落ち込み(dip)と回復(recovery)」のパターンを示す可能性があり、そのため短い学習チェックポイントでは汎化が悪いように見える(誤った示唆を与える)ことがあると見出している。
  • 長い連鎖的思考(CoT)による推論SFTが手順を効果的に移転できるかどうかは、最適化ダイナミクス、学習データの質・構造、そして基盤モデルの能力が共同で決定する。
  • 検証済みの長いCoTトレースはクロスドメイン性能を向上させる一方、低品質な解答は汎化全般を損なう可能性がある。
  • 本研究は非対称なトレードオフも観察している。すなわち、推論の質は向上するが、安全性が低下しうる。これにより、推論SFTの汎化は「いつ、そしてどのコストで」起こるのかという問いとして再定式化される。

Abstract

LLMの事後学習(post-training)において、教師あり微調整(SFT)が記憶(memorizes)し、強化学習(RL)が汎化(generalizes)する、という支配的な物語(narrative)がある。私たちは、長い連鎖的思考(CoT)を伴う推論SFT(reasoning SFT)についてこの主張を再検証し、ドメインをまたぐ汎化が完全に欠如しているのではなく、条件付きであり、最適化ダイナミクス、学習データ、基盤モデルの能力によって共同で形づくられていることを見いだす。報告されたいくつかの失敗は、過小最適化(under-optimization)のアーティファクトである。すなわち、ドメイン横断の性能はまず低下し、その後、訓練を延長することで回復して改善する(dip-and-recoveryパターン)ため、短い学習ステップのチェックポイントでは汎化を過小評価しうる。データの質と構造の両方が重要であり、低品質な解答は汎化を広く損なう一方で、検証済みの長いCoTトレースは一貫したドメイン横断の利得をもたらす。モデル能力も不可欠である。より強いモデルは、玩具の算術ゲームからでも(backtrackingのような)移転可能な手続き的パターンを内部化するのに対し、弱いモデルは表面上の冗長さを模倣する。この汎化は非対称である。すなわち、推論は改善する一方で安全性は低下し、問題設定は「推論SFTが汎化するかどうか」から、「どのような条件のもとで、またどのような代償(コスト)を伴って汎化するのか」へと組み替えられる。