FlashSAC：高次元ロボット制御のための高速かつ安定なオフポリシー強化学習

arXiv cs.LG / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

FlashSACは、高次元ロボット制御向けの高速かつ安定なオフポリシー強化学習アルゴリズムとして導入される。Soft Actor-Criticを基盤とし、PPOのようなオンポリシー手法の限界に対処する。
監視学習におけるスケーリング則の考え方に触発され、モデルの容量とデータスループットを拡張しつつ、批評家（critic）関連の勾配更新回数を削減する。
重み・特徴・勾配ノルムを明示的に上限制約することで、安定性を改善し、多様なリプレイデータに対するブートストラップにより批評家の誤差が蓄積することを抑制する。
10種類のシミュレータにまたがる60以上のタスクで実験した結果、FlashSACは最終性能と学習効率の両面でPPOおよび強力なオフポリシーベースラインを上回る。特に、巧緻な操作のような高次元タスクで顕著である。
シミュレーションから実環境へのヒューマノイド歩行では、FlashSACにより学習時間が「数時間から数分へ」短縮されたと報告されており、実ロボットへの実用的な転移可能性が示される。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH