概要: 世界行動モデル(World action models, WAMs)は、強力な動画バックボーンを活用して将来の状態をモデル化できるため、ロボットの方策学習における有望な方向性として登場してきた。 しかし、既存の手法の多くは別個の行動モジュールに依存しているか、あるいはピクセルに根ざしていない(pixel-groundedではない)行動表現を用いているため、動画モデルの事前学習済み知識を十分に活用しづらく、視点や環境をまたいだ転移も制限されてしまう。 本研究では、マルチビュー動画生成として方策学習を定式化する、統一型の世界行動モデルである「Action Images」を提案する。 制御を低次元トークンとして符号化する代わりに、7自由度(7-DoF)のロボット行動を解釈可能な行動画像へと変換する。 すなわち、2Dピクセルに根ざし、ロボットアームの運動を明示的に追跡するマルチビューの行動ビデオである。 このピクセルに根ざした行動表現により、動画バックボーン自体が、別個の方策ヘッドや行動モジュールなしでゼロショット方策として機能できる。 制御にとどまらず、同じ統一モデルは、動画-行動の共同生成、行動条件付き動画生成、そして共有表現のもとでの行動ラベリングもサポートする。 RLBenchおよび実環境での評価において、我々のモデルは最も強いゼロショット成功率を達成し、先行する動画空間の世界モデルに比べて動画-行動共同生成の品質を向上させる。 これは、解釈可能な行動画像が方策学習への有望なアプローチであることを示唆している。
Action Images: マルチビュー動画生成によるエンドツーエンド方策学習
arXiv cs.RO / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は「Action Images」を提案しており、ロボットの方策学習を、個別のアクション・モジュールやピクセルに根拠のない(non–pixel-grounded)アクショントークンに頼るのではなく、マルチビュー動画生成として捉える統一的な世界アクションモデルを提示する。
- 7自由度(7-DoF)のロボット動作を、2Dピクセルに根拠づけられ、ロボットアームの運動を明示的に追跡する、解釈可能なマルチビュー「アクション動画」として表現し、基盤となる動画バックボーンをゼロショット方策として機能させる。
- 専用の方策ヘッド/アクション・モジュールの必要性を取り除き、事前学習済みの動画モデルをより直接的に活用することで、視点や環境間での転移を向上させることを狙っている。
- 方策学習に留まらず、共有表現は動画とアクションの共同生成、アクション条件付き動画生成、アクションのラベリングも支援でき、汎用的なマルチモーダル枠組みであることを示す。
- RLBenchおよび実環境での実験では、先行する動画空間の世界モデルに比べて、最も強いゼロショット成功率と共同生成品質の改善が報告されており、ピクセルに根拠づけられたアクション表現の有効性が強調されている。




