Sparse but Critical: LLMのRLVR微調整における分布シフトをトークン単位で分析

arXiv cs.CL / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、検証可能な報酬による強化学習（RLVR）が大規模言語モデルのトークン単位のふるまいをどのように変えるかを調べ、基底ポリシーからRL微調整ポリシーへの分布シフトに焦点を当てる。
RLの微調整は、トークン分布への変化が非常に疎で、かつ狙いを定めた（ターゲットされた）ものになることを見出す。つまり、基底モデルとRLモデルの間で意味のある相違が生じるのは、わずかな割合のトークンに限られる。
トークンエントロピー、位置的集中、確率質量の再配分といった指標を用いて、こうした疎なシフトがどのような構造を持ち、学習の進行に伴ってどのように変化していくかを特徴づける。
サンプル間での介入（クロスサンプリング・インターベンション）により因果的重要性を示す。すなわち、RLが選んだトークンのごく一部を基底の生成に挿入するとRLの効果を回復できる一方で、同程度の割合の基底トークンをRLの生成に挿入すると性能が基底レベルまで崩壊する。
著者らはさらに、発散（divergence）で重み付けしたアドバンテージ信号の変種を診断／介入のシグナルとして検証し、標準的なベースラインに対する改善の可能性を報告する。

Abstract

検証可能な報酬による強化学習（RLVR）は、大規模言語モデル（LLM）の推論を大きく改善しているが、これらの改善の背後にあるトークンレベルのメカニズムはいまだ不明である。我々は、主に3つの分析を中心に整理した、RLVRの分布効果に関する体系的な実証研究を提示する。（1）基盤モデルとRLモデルの間における分布シフトの、トークンレベルでの特性評価、（2）クロスサンプリング介入によって、トークンレベルの分布シフトがシーケンスレベルの推論性能に与える影響、（3）トークンレベルでのこれらのシフトの微視的な仕組み。RLの微調整は非常に疎で的を絞った変化を引き起こし、基盤方策とRL方策の間で意味のある乖離を示すトークン分布はごく一部に限られることを見出す。さらに、トークンのエントロピー、位置の集中度、確率質量の再配分といった分析を通じて、これらのシフトの構造とその進化を特徴づける。これらの疎な変化が機能的にどれほど重要かを評価するために、介入予算を変えながら、基盤モデルとRLモデルの間でトークン選択を選択的に入れ替えるクロスサンプリング実験を行う。RLサンプルされたトークンのごく一部を基盤の生成に挿入するだけで、RLの性能向上が段階的に回復されることを示す。一方で、同様に少数の基盤トークン選択を、さもなければRLによって生成されたシーケンスに注入すると、性能は基盤レベルへ崩壊し、RLVRの性能向上の直接的な原因となる少数のトークンレベルの意思決定を切り分ける。最後に、診断的介入としてアドバンテージ信号の分岐（ダイバージェンス）重み付きバリアントを探り、それらがベースラインより改善をもたらしうることを見出す。我々の結果は、RLVRによって引き起こされる分布の変化に光を当てるとともに、RLVRの微調整を、狙いを定めた改良プロセスとして理解するための、トークンレベルのきわめて細かな視点を提供する。