オフポリシー強化学習における批評(Critic)学習のための低ランク・アダプテーション
arXiv cs.LG / 2026/4/22
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、リプレイバッファに基づくブートストラップ学習で特に問題になりやすい、オフポリシー強化学習における批評(Critic)ネットワークのスケーリングに伴う過学習と不安定性に対処します。
- 低ランク・アダプテーション(LoRA)をオフポリシー批評に用い、ランダム初期化した基底重みを凍結して低ランク・アダプタのみを学習することで、更新を低次元部分空間に制限します。
- 提案手法はSimbaV2の上に構築し、凍結バックボーン学習時に高次元の正規化ジオメトリ(ハイパーサフィア形状)を保つ、SimbaV2互換なLoRAの定式化を導入します。
- DeepMind ControlおよびIsaacLabのロボティクスベンチマークで、SACとFastTD3を用いた評価により、LoRAは批評の損失をより低くし、ポリシー性能も向上することが示されます。
- 総じて、適応的な低ランク更新が、オフポリシーRLにおける批評学習のためのシンプルでスケーラブルな構造的正則化として有効であると主張します。



