概要: Vision-Language-Action(VLA)モデルはロボット制御に有望である一方、複雑な家庭環境における性能はいまだ不十分です。モバイルマニピュレーションでは、グローバルなシーン配置の推論、きめ細かな幾何情報、高次元の連続アクションが必要となるため、標準的な模倣学習だけでは足りません。私たちは、補助タスクの共同学習とマルチモーダル入力の強化によって知覚と表現を強固にする、空間的に基準づけられたVLAモデルを学習するための枠組みを提案します。本手法は、基部の運動、アームの関節運動、グリッパの作動を協調させる13次元のアクション空間を制御するという課題に取り組みます。空間理解を豊かにするために、モデルはマルチビューのRGB観測、深度手がかり、短い時間履歴を取り込みます。これにより、グローバルなシーン構造と局所的なマニピュレーション文脈の両方についての視点を提供します。表現品質を向上させるために、共有された視覚言語特徴から、解釈可能な中間信号を復元する補助デコーダを共同学習します。そこには、ロボットのグローバル位置、関節の構成、把持の親和性(アフォーダンス)、対象物の相対姿勢、セグメンテーションマスクが含まれます。これらの目的は、バックボーンが空間的に基準づけられ、マニピュレーションに意識的な潜在表現を獲得することを促す密な教師信号を提供します。家庭内の配置替えタスクに対する広範な評価により、本アプローチは把持、配置、開操作、閉操作の各操作にわたって一貫した改善を達成し、模倣学習単独の場合を大幅に上回ります。これらの結果は、補助的およびマルチモーダル学習による空間的基準づけが、VLAモデルを汎用的な家庭用ロボットへスケールするための強力な方向性を示唆していることを示しています。
SG-VLA:モバイルマニピュレーションのための、空間的に根ざした視覚言語アクションモデルの学習
arXiv cs.RO / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、標準的な模倣学習では不十分となる複雑な家庭内環境におけるロボットの性能向上を目的とした、SG-VLAという視覚言語アクション学習フレームワークを提案する。
- SG-VLAは、マルチビューRGB、距離(深度)手がかり、短い時間履歴を用いることで空間的な根づけ(spatial grounding)を強化し、モバイルマニピュレーションにおいて、グローバルなシーンのレイアウトと局所的な操作文脈の両方を捉える。
- これは、移動ベースの運動、アームの関節可動、グリッパ制御を含む、扱いが難しい13次元の連続アクション空間を対象とする。
- 補助タスクを用いたデコーダとの共同学習により、ロボット姿勢、関節状態、把持のアフォーダンス、相対的な物体姿勢、セグメンテーションマスクといった解釈可能な中間信号を再構成することで、表現品質を向上させる。
- 採取、配置、開閉といった動作を含む家庭内の並べ替えベンチマークにおいて、SG-VLAは直接の模倣学習に対して一貫した改善を示し、より汎用的な家庭用ロボットへ向けたスケーラブルな道筋を示唆している。




