要旨: World Models(WMs)は、環境の変化下での堅牢性と一般化を向上させるための、ポストトレーニングVision-Language-Action(VLA)ポリシーに有望なアプローチとして浮上してきました。しかし、WMベースのポストトレーニング手法の多くはピクセル空間による監視に依存しており、ピクセルレベルのアーティファクトや不完全なWMローアウトによる幻視にポリシーが影響を受けやすいです。我々はWorld2Actを導入します。VLAの行動を、対照的なマッチング目的を用いてWMの動画ダイナミクスの潜在表現と直接整合させ、ピクセルへの依存を減らします。ポストトレーニングの性能はロールアウトの品質に結びつきますが、現在のWMは主に固定長のクリップで訓練されているため、ロボットの実行時間が大きく異なる任意長の動画生成には苦戦しています。これに対処するため、私たちは高レベルの指示を低レベルのプロンプトに分割する自動のLLMベースのスキル分解パイプラインを提案します。このパイプラインは RoboCasa-Skill と LIBERO-Skill を生成し、多様なタスクの時間的なスコープにわたって一貫性を保つスキル組成型WMを支援します。実証的には、GR00T-N1.6 や Cosmos Policy のようなVLAsへWorld2Actを適用することで RoboCasa および LIBERO で最先端の結果を達成し、実世界の性能を6.7%向上させ、身体を持つエージェントの一般化を高めます。
World2Act: スキル組成型世界モデルによる潜在的行動のポストトレーニング
arXiv cs.CV / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- World2Actは、視覚-言語-行動ポリシーを世界モデルのビデオダイナミクス潜在変数と対照的マッチングの目的で整合させ、ピクセルレベルの監視への依存を減らすポストトレーニングフレームワークを導入します。
- 自動のLLMベースのスキル分解パイプラインを用いて高レベルの指示を低レベルのプロンプトに分解し、任意長ビデオ生成に対処して RoboCasa-Skill および LIBERO-Skill を生成します。
- このアプローチは、異なるタスクの時間域を跨いで一貫性を保つスキル組成型WMを実現し、身体を持つエージェントの堅牢性と一般化を高めます。
- 実証的には、GR00T-N1.6 および Cosmos Policy のようなVLAsへWorld2Actを適用することで RoboCasa および LIBERO で最先端の結果を達成し、実世界の性能を6.7%向上させ、身体を持つエージェントの一般化を高めます。



