World2Act: スキル組成型世界モデルによる潜在的行動のポストトレーニング

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

World2Actは、視覚-言語-行動ポリシーを世界モデルのビデオダイナミクス潜在変数と対照的マッチングの目的で整合させ、ピクセルレベルの監視への依存を減らすポストトレーニングフレームワークを導入します。
自動のLLMベースのスキル分解パイプラインを用いて高レベルの指示を低レベルのプロンプトに分解し、任意長ビデオ生成に対処して RoboCasa-Skill および LIBERO-Skill を生成します。
このアプローチは、異なるタスクの時間域を跨いで一貫性を保つスキル組成型WMを実現し、身体を持つエージェントの堅牢性と一般化を高めます。
実証的には、GR00T-N1.6 および Cosmos Policy のようなVLAsへWorld2Actを適用することで RoboCasa および LIBERO で最先端の結果を達成し、実世界の性能を6.7%向上させ、身体を持つエージェントの一般化を高めます。

要旨: World Models（WMs）は、環境の変化下での堅牢性と一般化を向上させるための、ポストトレーニングVision-Language-Action（VLA）ポリシーに有望なアプローチとして浮上してきました。しかし、WMベースのポストトレーニング手法の多くはピクセル空間による監視に依存しており、ピクセルレベルのアーティファクトや不完全なWMローアウトによる幻視にポリシーが影響を受けやすいです。我々はWorld2Actを導入します。VLAの行動を、対照的なマッチング目的を用いてWMの動画ダイナミクスの潜在表現と直接整合させ、ピクセルへの依存を減らします。ポストトレーニングの性能はロールアウトの品質に結びつきますが、現在のWMは主に固定長のクリップで訓練されているため、ロボットの実行時間が大きく異なる任意長の動画生成には苦戦しています。これに対処するため、私たちは高レベルの指示を低レベルのプロンプトに分割する自動のLLMベースのスキル分解パイプラインを提案します。このパイプラインは RoboCasa-Skill と LIBERO-Skill を生成し、多様なタスクの時間的なスコープにわたって一貫性を保つスキル組成型WMを支援します。実証的には、GR00T-N1.6 や Cosmos Policy のようなVLAsへWorld2Actを適用することで RoboCasa および LIBERO で最先端の結果を達成し、実世界の性能を6.7%向上させ、身体を持つエージェントの一般化を高めます。

テクノロジー「AI警告危険人物」

note

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

ぽんず｜管理職のAI仕事術

note

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

note

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

note

World2Act: スキル組成型世界モデルによる潜在的行動のポストトレーニング

要点

関連記事

テクノロジー「AI警告危険人物」

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

ぽんず｜管理職のAI仕事術

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer