AI Navigate

AcceRL: Vision-Language-Actionモデルのための分散型非同期強化学習と世界モデルフレームワーク

arXiv cs.LG / 2026/3/20

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • AcceRL は、Vision-Language-Action モデルにおける同期ボトルネックを排除するため、訓練、推論、ロールアウトを分離した完全な非同期・デカップリング型の強化学習フレームワークを提案します。
  • プラグアンドプレイ可能で訓練可能な世界モデルを、分散型の非同期 RL パイプラインに組み込み、仮想的な体験を生成する初の試みです。
  • LIBERO ベンチマークでの実験は、AcceRL が最先端の性能を達成することを示しています。
  • このフレームワークは、スループットの超線形スケーリングと高いハードウェア利用効率を示します。
  • 世界モデルを組み込んだ変種は、複雑な制御タスクにおいて前例のないサンプル効率と頑健な学習安定性を提供します。

要約: 大規模な Vision-Language-Action (VLA) モデルの強化学習(RL)は、計算効率とデータ取得において重大な課題に直面しています。私たちは、トレーニング、推論、ロールアウトを物理的に分離することで同期の障壁を排除するよう設計された、完全に非同期かつデカップルドな RL フレームワーク AcceRL を提案します。特に、AcceRL は、プラグアンドプレイ可能で訓練可能なワールドモデルを分散型の非同期 RL パイプラインに組み込み、仮想的な経験を生成する初の試みです。LIBERO ベンチマークでの実験は、AcceRL が最先端(SOTA)性能を達成することを示しています。系統的には、スループットの超線形スケーリングと高効率なハードウェア利用を示します。アルゴリズム的には、世界モデルを組み込んだ変種が、複雑な制御タスクにおいて前例のないサンプル効率と堅牢な訓練安定性をもたらします。