Abstract
本質的に、ロボティックなマニピュレーションは、視覚から幾何への写像の問題である(f(v)
ightarrow G)。物理的な行為は、本質的に、3D位置や空間関係といった幾何学的特性によって定義される。したがって、汎用化可能なロボティック制御の基盤は、広く採用されている視覚-言語モデルや動画モデルではなく、視覚-幾何のバックボーンであるべきだと我々は主張する。従来のVLA(Vision-Language-Action)および動画予測型モデルは、大規模な2D画像-テキストデータや時間方向のピクセルデータで事前学習されたバックボーンに依存している。これらは効果的である一方で、その表現は主として意味的な概念や2Dの事前知識によって形作られており、物理的なマニピュレーションに必要となる、正確な3D幾何学的性質と本質的に整合しているわけではない。この洞察に駆動されて、我々はVision-Geometry-Action(VGA)モデルを提案する。VGAは、事前学習済みのネイティブな3D表現に直接基づいて、行為生成を条件付けする。具体的には、VGAは従来の言語または動画のバックボーンを、事前学習された3D世界モデルで置き換え、視覚入力を物理的な行為へと直接変換する、シームレスな視覚から幾何への写像を確立する。さらに幾何学的整合性を高めるために、Progressive Volumetric Modulationモジュールを導入し、共同学習戦略を採用する。広範な実験により、このアプローチの有効性が検証される。シミュレーションのベンチマークでは、VGAは
\pi_{0.5}やGeoVLAを含むトップレベルのVLAベースラインを上回り、精密なマニピュレーションにおける優位性を示す。より重要な点として、VGAは現実世界での導入において、未知の視点への顕著なゼロショット汎化を示し、一貫して
\pi_{0.5}を上回る。これらの結果は、言語や2D動画の事前知識を介して変換するのではなく、ネイティブな3D表現上で動作することが、汎用化可能な物理的知能を実現するための非常に有望な方向性であることを示している。