適応的層ごとの摂動: LLM強化学習におけるオフポリシー補正の統一

arXiv cs.AI / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、LLM強化学習におけるオフポリシー問題(ポリシーの陳腐化と訓練と推論の不整合など)を扱い、これらが重尾の重要度比および不安定な更新を生み出すことを指摘します。
  • 本研究は Adaptive Layerwise Perturbation(ALP)を提案し、各層の隠れ状態に小さく学習可能な摂動を注入して、変わらない推論ポリシーに対する重要度比の分子を形成します。
  • ALPは直感的に中間表現へ制御されたノイズを加えることで、更新されたポリシーが過度に逸脱するのを防ぎ、ミスマッチ条件下で推論ポリシーを含むポリシー群を広げます。
  • 単回の数学タスクおよびツールを組み込んだ複数ターン推論タスクにおける実証結果は、最終性能の向上と、重要度比の尾部膨張およびKLスパイクの抑制を示し、全層にわたる表現レベルの摂動が、部分層摂動やロジットのみの変種を上回ることを示しました。

Abstract

オフポリシー問題、例えばポリシーの鮮度低下と学習と推論のずれは、LLM強化学習における学習の安定性とさらなる探索の主要なボトルネックとなっています。推論の効率を高めるために、推論ポリシーと更新後ポリシーの間の分布ギャップが拡大し、裾が重い重要度比が生じます。裾が重い比率は、ポリシーが局所的に鋭い場合に生じ、それは鋭い勾配をさらに増幅させ、更新を信頼領域の外へ押し出すことがあります。これに対処するため、更新時に各層の入力隠れ状態に小さく学習可能な摂動を注入するAdaptive Layerwise Perturbation(ALP)を提案します。これは目的関数において、不変の推論ポリシーに対する重要度比の分子として用いられます。直感的には、中間表現に制御されたノイズを加えることで、更新後のポリシーが推論ポリシーから過度に逸脱するのを防ぎ、ミスマッチノイズを含む推論ポリシー集合をカバーするようにポリシー集合を拡張します。したがって、平坦化された分布は自然に更新後ポリシーと推論ポリシーのギャップを狭め、重要度比の裾を縮小し、学習の安定性を維持します。この点は実證的にもさらに検証されています。単一ターンの数学タスクと、複数ターンのツール統合推論タスクの実験は、ALPが最終的な性能を向上させるだけでなく、反復的な訓練中の重要度比の裾の暴走とKLスパイクを回避し、探索を強化することを示しています。アブレーション実験は、全層にわたる表現レベルの摂動が最も効果的であり、部分層のみの摂動やロジットのみのバリエーションを大幅に上回ることを示しています。