適応的層ごとの摂動: LLM強化学習におけるオフポリシー補正の統一

arXiv cs.AI / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、LLM強化学習におけるオフポリシー問題（ポリシーの陳腐化と訓練と推論の不整合など）を扱い、これらが重尾の重要度比および不安定な更新を生み出すことを指摘します。
本研究は Adaptive Layerwise Perturbation（ALP）を提案し、各層の隠れ状態に小さく学習可能な摂動を注入して、変わらない推論ポリシーに対する重要度比の分子を形成します。
ALPは直感的に中間表現へ制御されたノイズを加えることで、更新されたポリシーが過度に逸脱するのを防ぎ、ミスマッチ条件下で推論ポリシーを含むポリシー群を広げます。
単回の数学タスクおよびツールを組み込んだ複数ターン推論タスクにおける実証結果は、最終性能の向上と、重要度比の尾部膨張およびKLスパイクの抑制を示し、全層にわたる表現レベルの摂動が、部分層摂動やロジットのみの変種を上回ることを示しました。

Abstract

オフポリシー問題、例えばポリシーの鮮度低下と学習と推論のずれは、LLM強化学習における学習の安定性とさらなる探索の主要なボトルネックとなっています。推論の効率を高めるために、推論ポリシーと更新後ポリシーの間の分布ギャップが拡大し、裾が重い重要度比が生じます。裾が重い比率は、ポリシーが局所的に鋭い場合に生じ、それは鋭い勾配をさらに増幅させ、更新を信頼領域の外へ押し出すことがあります。これに対処するため、更新時に各層の入力隠れ状態に小さく学習可能な摂動を注入するAdaptive Layerwise Perturbation(ALP)を提案します。これは目的関数において、不変の推論ポリシーに対する重要度比の分子として用いられます。直感的には、中間表現に制御されたノイズを加えることで、更新後のポリシーが推論ポリシーから過度に逸脱するのを防ぎ、ミスマッチノイズを含む推論ポリシー集合をカバーするようにポリシー集合を拡張します。したがって、平坦化された分布は自然に更新後ポリシーと推論ポリシーのギャップを狭め、重要度比の裾を縮小し、学習の安定性を維持します。この点は実證的にもさらに検証されています。単一ターンの数学タスクと、複数ターンのツール統合推論タスクの実験は、ALPが最終的な性能を向上させるだけでなく、反復的な訓練中の重要度比の裾の暴走とKLスパイクを回避し、探索を強化することを示しています。アブレーション実験は、全層にわたる表現レベルの摂動が最も効果的であり、部分層のみの摂動やロジットのみのバリエーションを大幅に上回ることを示しています。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

適応的層ごとの摂動: LLM強化学習におけるオフポリシー補正の統一

要点

Abstract

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer