FlashSAC:高次元ロボット制御のための高速かつ安定なオフポリシー強化学習
arXiv cs.LG / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- FlashSACは、高次元ロボット制御向けの高速かつ安定なオフポリシー強化学習アルゴリズムとして導入される。Soft Actor-Criticを基盤とし、PPOのようなオンポリシー手法の限界に対処する。
- 監視学習におけるスケーリング則の考え方に触発され、モデルの容量とデータスループットを拡張しつつ、批評家(critic)関連の勾配更新回数を削減する。
- 重み・特徴・勾配ノルムを明示的に上限制約することで、安定性を改善し、多様なリプレイデータに対するブートストラップにより批評家の誤差が蓄積することを抑制する。
- 10種類のシミュレータにまたがる60以上のタスクで実験した結果、FlashSACは最終性能と学習効率の両面でPPOおよび強力なオフポリシーベースラインを上回る。特に、巧緻な操作のような高次元タスクで顕著である。
- シミュレーションから実環境へのヒューマノイド歩行では、FlashSACにより学習時間が「数時間から数分へ」短縮されたと報告されており、実ロボットへの実用的な転移可能性が示される。



