なぜ強化学習は汎化するのか:大規模言語モデルにおけるポストトレーニングの特徴レベルのメカニズム研究
arXiv cs.CL / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、強化学習(RL)によるポストトレーニングが大規模言語モデル(LLM)の推論性能を学習ドメイン外にも改善する一方で、教師あり微調整(SFT)が汎用能力の忘却を招きやすい理由を解明しようとしています。
- 同一のベースモデルから同一データでRL版とSFT版を学習する制御実験を行い、さらに特徴レベルのメカニスティック解析によりモデル間の内部活性を共通の特徴空間で整列させて、ポストトレーニング中の特徴の変化を追跡します。
- 結果として、SFTは学習序盤で多くの高度に専門化した特徴を素早く作り、それらが早期に安定化するのに対し、RLはより抑制的で継続的に変化する特徴更新を行い、ベースモデルの表現を概ね保持することが示されます。
- RLが成功するがベースモデルが失敗するサンプルに注目すると、汎化を媒介する、タスク非依存でコンパクトな一連の特徴が特定されます。
- 特徴を無効化・増幅する介入実験により、これらの特徴がRLモデルの汎化に因果的に寄与していることが確認され、解析手法とコードも公開されています(https://github.com/danshi777/RL-generalization)。



