GeoPredict:予測運動学と3Dガウス幾何を活用した精密なVLAマニピュレーション

arXiv cs.RO / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • GeoPredictは、精密な3Dマニピュレーション課題において、VLAモデルの大部分が反応的で2D中心であるという挙動を克服するための、幾何に着目したVision-Language-Action(VLA)フレームワークである。
  • 本手法は(1)運動履歴を用いて、複数ステップの3Dアーム・キーポイント軌道を予測する軌道レベルのモジュールと、(2)トラックに導かれた改良により作業空間の幾何を予測する予測的な3Dガウス幾何モジュール、の2つを追加する。
  • GeoPredictは、予測的な3Dコンポーネントを訓練時の深度ベースのレンダリングによる教師信号のためにのみ使用し、推論時には3Dデコードを行わず、軽量なクエリトークンに依存する。
  • RoboCasa Human-50、LIBERO、ならびに実世界でのマニピュレーションに関する実験では、強力なVLAベースラインに対して一貫した改善が示され、特に幾何および空間に負荷の大きいシナリオで最大の効果が得られる。

Abstract

Vision-Language-Action(VLA)モデルはロボティクスの把持・操作において強力な汎化性能を示す一方で、ほとんどが反応的で2D中心であるため、精密な3D推論を必要とするタスクでは信頼性に欠けます。そこで本研究では、ジオメトリを意識したVLAフレームワークであるGeoPredictを提案します。GeoPredictは、連続アクションの方策を、予測的な運動学的・幾何学的事前知識で拡張します。GeoPredictは、運動履歴を符号化し、ロボットアームのマルチステップな3Dキーポイント軌道を予測する、軌道レベルのモジュールを導入します。また、将来のキーポイント軌道に沿ったトラック誘導の洗練により、ワークスペースの幾何を予測する、予測的な3Dガウス幾何モジュールも導入します。これらの予測モジュールは、深度ベースのレンダリングによる教師信号としてのみ、学習時に用いられます。一方、推論時には、3D復号を呼び出すことなく、軽量な追加のクエリトークンだけが必要です。RoboCasa Human-50、LIBERO、および実環境での操作タスクに対する実験では、GeoPredictが強力なVLAベースラインを一貫して上回り、特に幾何学的に要求が高く、空間的な制約が厳しいシナリオで顕著な性能向上が見られます。