概要: World-Action Models (WAM) は、事前学習済みの動画生成バックボーンから初期化され、ロボット方針学習において顕著な可能性を示しています。しかし、従来のアプローチには性能と展開を妨げる二つの重大なボトルネックが存在します。第一に、将来の視覚ダイナミクスと対応するアクションを同時に推論することは、大きな推論オーバーヘッドを伴います。第二に、結合モデリングは視覚表現とモーション表現を絡み合わせることが多く、モーション予測の精度は将来の動画予測の品質に大きく依存します。これらの問題に対処するため、私たちは GigaWorld-Policy を導入します。これはアクション中心の WAM で、2D ピクセル-アクションダイナミクスを学習しつつ、効率的なアクションデコードを可能にし、動画生成を任意で行えるようにします。具体的には、ポリシー訓練を2つの結合したコンポーネントに分けて定式化します。モデルは現在の観測に条件付けて将来のアクション列を予測し、同時に予測されたアクションと同じ観測に条件付けて将来の動画を生成します。ポリシーはアクション予測と動画生成の両方で監督され、よりリッチな学習信号を提供し、視覚ダイナミクス制約を通じて物理的に妥当なアクションを促します。将来の動画トークンがアクショントークンに影響を及ぼさない因果設計により、推論時の明示的な将来動画生成は任意となり、デプロイ時のアクション予測をより速く行えるようになります。これらのパラダイムを支えるために、多様で大規模なロボットデータセットを厳選して事前訓練し、それをアクション中心の動画生成モデルのバックボーンとして適用します。実世界のロボットプラットフォームでの実験結果は、GigaWorld-Policy が先行する WAM ベースライン Motus より 9 倍高速に動作し、タスクの成功率を 7% 向上させることを示しています。さらに、pi-0.5 と比較して、RoboTwin 2.0 での性能を 95% 向上させます。
GigaWorld-Policy: 効率的なアクション中心のワールド-アクションモデル
arXiv cs.CV / 2026/3/19
💬 オピニオンModels & Research
要点
- GigaWorld-Policy は、ロボットのポリシー学習を加速させるため、2D ピクセル-アクションダイナミクスを学習し、任意のビデオ生成を可能にするアクション中心の World-Action モデル(WAM)を導入します。
- ポリシー学習は、現在の観測に条件づけられた将来のアクション列を予測することと、それらのアクションに条件づけられた将来のビデオを生成することの2つに分割され、視覚ダイナミクス制約を通じて物理的に妥当なアクションを促すよう、両方の信号を教師ありで学習します。
- 因果設計により、将来のビデオ・トークンがアクション・トークンに影響を及ぼさないようにされており、デプロイ時に将来ビデオ生成を無効化した場合でも、より高速なアクション推論を実現します。
- 実世界のロボットプラットフォームでの実験結果は、Motusより推論が9倍高速で、タスク成功率が7%改善し、RoboTwin 2.0 では pi-0.5 に対して95%の改善を示します。


