Abstract
近年、エンドツーエンドのロボティック操作モデルは、その汎化性とスケーラビリティの高さから大きな注目を集めています。しかし、固定カメラで学習する場合、カメラ視点の変化に対して頑健性が限定的であることが多いという課題があります。本論文では、テスト時にカメラキャリブレーションを必要とせずに、視点に頑健なクローズドループ操作を実現するための、新しい枠組みであるVistaBotを提案します。私たちの手法は、4D幾何推定、視点合成の潜在表現の抽出、潜在アクション学習という3つの主要コンポーネントで構成されます。VistaBotは、アクション・チャンク化(ACT)と拡散ベースの(\pi_0)ポリシーの両方に統合され、シミュレーションおよび実環境のタスクにおいて評価します。さらに、クロスビュー汎化の包括的な評価のための新しい指標としてView Generalization Score(VGS)を導入します。その結果、VistaBotはACTと\pi_0に対してそれぞれVGSを2.79\timesおよび2.63\times向上させるだけでなく、高品質な新規視点合成も達成できることが示されました。私たちの主な貢献は、幾何情報を考慮した合成モデル、潜在アクション計画器、新しいベンチマーク指標、そして多様な環境にわたる広範な検証です。コードとモデルは公開される予定です。