オフポリシー強化学習における批評（Critic）学習のための低ランク・アダプテーション

arXiv cs.LG / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、リプレイバッファに基づくブートストラップ学習で特に問題になりやすい、オフポリシー強化学習における批評（Critic）ネットワークのスケーリングに伴う過学習と不安定性に対処します。
低ランク・アダプテーション（LoRA）をオフポリシー批評に用い、ランダム初期化した基底重みを凍結して低ランク・アダプタのみを学習することで、更新を低次元部分空間に制限します。
提案手法はSimbaV2の上に構築し、凍結バックボーン学習時に高次元の正規化ジオメトリ（ハイパーサフィア形状）を保つ、SimbaV2互換なLoRAの定式化を導入します。
DeepMind ControlおよびIsaacLabのロボティクスベンチマークで、SACとFastTD3を用いた評価により、LoRAは批評の損失をより低くし、ポリシー性能も向上することが示されます。
総じて、適応的な低ランク更新が、オフポリシーRLにおける批評学習のためのシンプルでスケーラブルな構造的正則化として有効であると主張します。

日経XTECH

AI-SCHOLAR

Dev.to

Dev.to

Dev.to