推論SFTにおける汎化の再考:最適化・データ・モデル能力に関する条件付き分析
arXiv cs.AI / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、教師あり微調整(SFT)が記憶し、強化学習(RL)が汎化するという一般的な事後学習(post-training)主張に異議を唱え、推論SFTは特定の条件下であればドメインを越えて汎化しうることを示す。
- 研究では、学習中にクロスドメイン汎化が「落ち込み(dip)と回復(recovery)」のパターンを示す可能性があり、そのため短い学習チェックポイントでは汎化が悪いように見える(誤った示唆を与える)ことがあると見出している。
- 長い連鎖的思考(CoT)による推論SFTが手順を効果的に移転できるかどうかは、最適化ダイナミクス、学習データの質・構造、そして基盤モデルの能力が共同で決定する。
- 検証済みの長いCoTトレースはクロスドメイン性能を向上させる一方、低品質な解答は汎化全般を損なう可能性がある。
- 本研究は非対称なトレードオフも観察している。すなわち、推論の質は向上するが、安全性が低下しうる。これにより、推論SFTの汎化は「いつ、そしてどのコストで」起こるのかという問いとして再定式化される。


