ロボットによる操作は視覚から幾何への写像($f(v) ightarrow G$)である:言語モデルや動画モデルを超えるVision-Geometryバックボーン

arXiv cs.RO / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ロボットによる操作を中核的な「視覚から幾何(3D幾何)」への写像問題として再定義し、効果的で汎用可能な制御は、主としてセマンティックな言語や2D動画の事前知識に依存するのではなく、3Dの幾何学的性質に整合するべきだと主張する。
  • 事前学習済みのネイティブな3D世界表現を条件として行動を生成するVision-Geometry-Action(VGA)モデルを提案し、従来の視覚-言語バックボーンや動画バックボーンに依存しない。
  • 幾何学的整合性を高めるため、VGAはProgressive Volumetric Modulationモジュールを追加し、視覚から幾何への目的に合わせた共同学習戦略を用いる。
  • シミュレーションのベンチマークに対する実験では、VGAが精密な操作タスクにおいて、π0.5やGeoVLAを含む強力なVLAベースラインを上回る。
  • 本モデルは、実環境での展開において未見の視点への強いゼロショット汎化も示しており、提案する3Dバックボーンのアプローチが、移転可能な身体知能をよりよく支える可能性を示唆する。

Abstract

本質的に、ロボティックなマニピュレーションは、視覚から幾何への写像の問題である(f(v) ightarrow G)。物理的な行為は、本質的に、3D位置や空間関係といった幾何学的特性によって定義される。したがって、汎用化可能なロボティック制御の基盤は、広く採用されている視覚-言語モデルや動画モデルではなく、視覚-幾何のバックボーンであるべきだと我々は主張する。従来のVLA(Vision-Language-Action)および動画予測型モデルは、大規模な2D画像-テキストデータや時間方向のピクセルデータで事前学習されたバックボーンに依存している。これらは効果的である一方で、その表現は主として意味的な概念や2Dの事前知識によって形作られており、物理的なマニピュレーションに必要となる、正確な3D幾何学的性質と本質的に整合しているわけではない。この洞察に駆動されて、我々はVision-Geometry-Action(VGA)モデルを提案する。VGAは、事前学習済みのネイティブな3D表現に直接基づいて、行為生成を条件付けする。具体的には、VGAは従来の言語または動画のバックボーンを、事前学習された3D世界モデルで置き換え、視覚入力を物理的な行為へと直接変換する、シームレスな視覚から幾何への写像を確立する。さらに幾何学的整合性を高めるために、Progressive Volumetric Modulationモジュールを導入し、共同学習戦略を採用する。広範な実験により、このアプローチの有効性が検証される。シミュレーションのベンチマークでは、VGAは \pi_{0.5}やGeoVLAを含むトップレベルのVLAベースラインを上回り、精密なマニピュレーションにおける優位性を示す。より重要な点として、VGAは現実世界での導入において、未知の視点への顕著なゼロショット汎化を示し、一貫して \pi_{0.5}を上回る。これらの結果は、言語や2D動画の事前知識を介して変換するのではなく、ネイティブな3D表現上で動作することが、汎用化可能な物理的知能を実現するための非常に有望な方向性であることを示している。