VistaBot:時空間に配慮した視点合成によるビューに頑健なロボット操作

arXiv cs.RO / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文では、固定カメラで学習されたエンドツーエンドモデルよりも、学習・推論時のカメラ視点変化への頑健性を高めるロボット操作フレームワーク「VistaBot」を提案しています。
  • VistaBotは、フィードフォワードの幾何推定と動画拡散モデルを組み合わせ、4Dジオメトリ推定、視点合成の潜在表現抽出、潜在アクション学習により、テスト時のカメラキャリブレーションなしで閉ループ制御を実現します。
  • ACT(アクション・チャンク化)とπ0(拡散ベース)という2種類の方策に組み込み、シミュレーションと実機タスクの両方で評価し、視点をまたぐ性能が向上することを示しています。
  • 新しい評価指標としてView Generalization Score(VGS)を導入し、VGSがACTおよびπ0に対してそれぞれ2.79倍、2.63倍改善したほか、新しい視点での高品質な映像合成も達成したと報告しています。
  • 幾何に基づく合成モデルや潜在アクションプランナーなどの貢献に加え、多様な環境での広範な検証を行っており、コードとモデルは公開予定です。

Abstract

近年、エンドツーエンドのロボティック操作モデルは、その汎化性とスケーラビリティの高さから大きな注目を集めています。しかし、固定カメラで学習する場合、カメラ視点の変化に対して頑健性が限定的であることが多いという課題があります。本論文では、テスト時にカメラキャリブレーションを必要とせずに、視点に頑健なクローズドループ操作を実現するための、新しい枠組みであるVistaBotを提案します。私たちの手法は、4D幾何推定、視点合成の潜在表現の抽出、潜在アクション学習という3つの主要コンポーネントで構成されます。VistaBotは、アクション・チャンク化(ACT)と拡散ベースの(\pi_0)ポリシーの両方に統合され、シミュレーションおよび実環境のタスクにおいて評価します。さらに、クロスビュー汎化の包括的な評価のための新しい指標としてView Generalization Score(VGS)を導入します。その結果、VistaBotはACTと\pi_0に対してそれぞれVGSを2.79\timesおよび2.63\times向上させるだけでなく、高品質な新規視点合成も達成できることが示されました。私たちの主な貢献は、幾何情報を考慮した合成モデル、潜在アクション計画器、新しいベンチマーク指標、そして多様な環境にわたる広範な検証です。コードとモデルは公開される予定です。