AIM: 空間バリューマップによる意図対応型ユニファイド世界アクションモデリング

arXiv cs.RO / 2026/4/14

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文では、動画ベースの世界モデリング(シーンの進展)と、アクション生成(どこで/どのように意図に応じて相互作用するか)の間に存在する不整合に対処する、意図対応型のユニファイド世界アクションモデル「AIM」を提案する。
  • AIMは整合した空間バリューマップを予測することで明示的な空間インターフェースを用い、未来の映像から直接復号するのではなく、バリュ—表現を通じて未来情報をアクション分岐へルーティングする。
  • 本手法は、混合型トランスフォーマーの共有アーキテクチャを用いた事前学習済みの動画生成に基づき、意図因果注意によりアクションに関連する将来の手がかりを切り分ける。
  • さらに自己蒸留による強化学習段階を追加し、動画分岐とバリュー分岐を固定したうえで、投影されたバリューマップ応答から得る密な報酬と、疎なタスクレベルの信号を用いてアクションヘッドのみを最適化する。
  • RoboTwin 2.0ベンチマークにおいて、AIMは平均成功率94.0%に到達すると報告されており、長期ホライゾンおよび接触に敏感な操作タスクでより大きな改善が見られる。これは、バリューマップ注釈付きの新たな30K軌道シミュレーションデータセットによって支えられる。