GeoPredict：予測運動学と3Dガウス幾何を活用した精密なVLAマニピュレーション

arXiv cs.RO / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

GeoPredictは、精密な3Dマニピュレーション課題において、VLAモデルの大部分が反応的で2D中心であるという挙動を克服するための、幾何に着目したVision-Language-Action（VLA）フレームワークである。
本手法は（1）運動履歴を用いて、複数ステップの3Dアーム・キーポイント軌道を予測する軌道レベルのモジュールと、（2）トラックに導かれた改良により作業空間の幾何を予測する予測的な3Dガウス幾何モジュール、の2つを追加する。
GeoPredictは、予測的な3Dコンポーネントを訓練時の深度ベースのレンダリングによる教師信号のためにのみ使用し、推論時には3Dデコードを行わず、軽量なクエリトークンに依存する。
RoboCasa Human-50、LIBERO、ならびに実世界でのマニピュレーションに関する実験では、強力なVLAベースラインに対して一貫した改善が示され、特に幾何および空間に負荷の大きいシナリオで最大の効果が得られる。

Abstract

Vision-Language-Action（VLA）モデルはロボティクスの把持・操作において強力な汎化性能を示す一方で、ほとんどが反応的で2D中心であるため、精密な3D推論を必要とするタスクでは信頼性に欠けます。そこで本研究では、ジオメトリを意識したVLAフレームワークであるGeoPredictを提案します。GeoPredictは、連続アクションの方策を、予測的な運動学的・幾何学的事前知識で拡張します。GeoPredictは、運動履歴を符号化し、ロボットアームのマルチステップな3Dキーポイント軌道を予測する、軌道レベルのモジュールを導入します。また、将来のキーポイント軌道に沿ったトラック誘導の洗練により、ワークスペースの幾何を予測する、予測的な3Dガウス幾何モジュールも導入します。これらの予測モジュールは、深度ベースのレンダリングによる教師信号としてのみ、学習時に用いられます。一方、推論時には、3D復号を呼び出すことなく、軽量な追加のクエリトークンだけが必要です。RoboCasa Human-50、LIBERO、および実環境での操作タスクに対する実験では、GeoPredictが強力なVLAベースラインを一貫して上回り、特に幾何学的に要求が高く、空間的な制約が厳しいシナリオで顕著な性能向上が見られます。

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

10年かかるDXを1年で実現したSUBARU、生成AIは「とにかく使う」が大事

日経XTECH

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

『暗黙知の次元』を再読、AIブームの最中に人間の強さを確認した

日経XTECH

GeoPredict：予測運動学と3Dガウス幾何を活用した精密なVLAマニピュレーション

要点

Abstract

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

10年かかるDXを1年で実現したSUBARU、生成AIは「とにかく使う」が大事

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

『暗黙知の次元』を再読、AIブームの最中に人間の強さを確認した

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

10年かかるDXを1年で実現したSUBARU、生成AIは「とにかく使う」が大事

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

『暗黙知の次元』を再読、AIブームの最中に人間の強さを確認した

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」