適応的層ごとの摂動: LLM強化学習におけるオフポリシー補正の統一
arXiv cs.AI / 2026/3/23
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、LLM強化学習におけるオフポリシー問題(ポリシーの陳腐化と訓練と推論の不整合など)を扱い、これらが重尾の重要度比および不安定な更新を生み出すことを指摘します。
- 本研究は Adaptive Layerwise Perturbation(ALP)を提案し、各層の隠れ状態に小さく学習可能な摂動を注入して、変わらない推論ポリシーに対する重要度比の分子を形成します。
- ALPは直感的に中間表現へ制御されたノイズを加えることで、更新されたポリシーが過度に逸脱するのを防ぎ、ミスマッチ条件下で推論ポリシーを含むポリシー群を広げます。
- 単回の数学タスクおよびツールを組み込んだ複数ターン推論タスクにおける実証結果は、最終性能の向上と、重要度比の尾部膨張およびKLスパイクの抑制を示し、全層にわたる表現レベルの摂動が、部分層摂動やロジットのみの変種を上回ることを示しました。