GeoPredict:予測運動学と3Dガウス幾何を活用した精密なVLAマニピュレーション
arXiv cs.RO / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- GeoPredictは、精密な3Dマニピュレーション課題において、VLAモデルの大部分が反応的で2D中心であるという挙動を克服するための、幾何に着目したVision-Language-Action(VLA)フレームワークである。
- 本手法は(1)運動履歴を用いて、複数ステップの3Dアーム・キーポイント軌道を予測する軌道レベルのモジュールと、(2)トラックに導かれた改良により作業空間の幾何を予測する予測的な3Dガウス幾何モジュール、の2つを追加する。
- GeoPredictは、予測的な3Dコンポーネントを訓練時の深度ベースのレンダリングによる教師信号のためにのみ使用し、推論時には3Dデコードを行わず、軽量なクエリトークンに依存する。
- RoboCasa Human-50、LIBERO、ならびに実世界でのマニピュレーションに関する実験では、強力なVLAベースラインに対して一貫した改善が示され、特に幾何および空間に負荷の大きいシナリオで最大の効果が得られる。
