要約: 大規模な Vision-Language-Action (VLA) モデルの強化学習(RL)は、計算効率とデータ取得において重大な課題に直面しています。私たちは、トレーニング、推論、ロールアウトを物理的に分離することで同期の障壁を排除するよう設計された、完全に非同期かつデカップルドな RL フレームワーク AcceRL を提案します。特に、AcceRL は、プラグアンドプレイ可能で訓練可能なワールドモデルを分散型の非同期 RL パイプラインに組み込み、仮想的な経験を生成する初の試みです。LIBERO ベンチマークでの実験は、AcceRL が最先端(SOTA)性能を達成することを示しています。系統的には、スループットの超線形スケーリングと高効率なハードウェア利用を示します。アルゴリズム的には、世界モデルを組み込んだ変種が、複雑な制御タスクにおいて前例のないサンプル効率と堅牢な訓練安定性をもたらします。
AcceRL: Vision-Language-Actionモデルのための分散型非同期強化学習と世界モデルフレームワーク
arXiv cs.LG / 2026/3/20
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- AcceRL は、Vision-Language-Action モデルにおける同期ボトルネックを排除するため、訓練、推論、ロールアウトを分離した完全な非同期・デカップリング型の強化学習フレームワークを提案します。
- プラグアンドプレイ可能で訓練可能な世界モデルを、分散型の非同期 RL パイプラインに組み込み、仮想的な体験を生成する初の試みです。
- LIBERO ベンチマークでの実験は、AcceRL が最先端の性能を達成することを示しています。
- このフレームワークは、スループットの超線形スケーリングと高いハードウェア利用効率を示します。
- 世界モデルを組み込んだ変種は、複雑な制御タスクにおいて前例のないサンプル効率と頑健な学習安定性を提供します。
関連記事
EU AI Act適合性のために11,529台のMCPサーバをスキャンしました
Dev.to
テックキャリアに4年間も費やしている
Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
[P] allToall アーキテクチャを用いたデータ並列で 3 台の Mac Minis M4 上で Llama3.2-1B-Instruct の推論! | smolcluster
Reddit r/MachineLearning

NVIDIA V100 32GB が Qwen Coder 30B A3B Q5 で約115トークン/秒を達成
Reddit r/LocalLLaMA