Sparse but Critical: LLMのRLVR微調整における分布シフトをトークン単位で分析
arXiv cs.CL / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、検証可能な報酬による強化学習(RLVR)が大規模言語モデルのトークン単位のふるまいをどのように変えるかを調べ、基底ポリシーからRL微調整ポリシーへの分布シフトに焦点を当てる。
- RLの微調整は、トークン分布への変化が非常に疎で、かつ狙いを定めた(ターゲットされた)ものになることを見出す。つまり、基底モデルとRLモデルの間で意味のある相違が生じるのは、わずかな割合のトークンに限られる。
- トークンエントロピー、位置的集中、確率質量の再配分といった指標を用いて、こうした疎なシフトがどのような構造を持ち、学習の進行に伴ってどのように変化していくかを特徴づける。
- サンプル間での介入(クロスサンプリング・インターベンション)により因果的重要性を示す。すなわち、RLが選んだトークンのごく一部を基底の生成に挿入するとRLの効果を回復できる一方で、同程度の割合の基底トークンをRLの生成に挿入すると性能が基底レベルまで崩壊する。
- 著者らはさらに、発散(divergence)で重み付けしたアドバンテージ信号の変種を診断/介入のシグナルとして検証し、標準的なベースラインに対する改善の可能性を報告する。




