見るから行うへ:ロボットによる操作のための推論と意思決定の橋渡し

arXiv cs.RO / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、未見の状況や新規タスクにおけるロボット操作の汎化性能を高めることを目的とした、視覚と言語のモデルFSD(From Seeing to Doing)を提案する。
  • 一般的なVision-Language-Actionのアプローチとは異なり、FSDは空間関係の推論によって中間表現を生成し、物理的な操作に対するきめ細かなガイダンスを提供する。
  • 本手法では、階層的な学習データのパイプラインと自己整合性メカニズムを用いて、空間座標と視覚信号を整合させ、限られた多様な体を備えたデータセットに起因する失敗の低減を目指す。
  • 実験により、一般的な空間推論と体現的リファレンスに関する8つのベンチマーク、およびより難易度の高いVABenchで強い性能が検証される。
  • ロボット操作において、著者らは大きなゼロショット改善を報告しており、SimplerEnvで成功率40.6%、実世界の8つのタスク全体で成功率72%を達成し、最も強力なベースラインに対して30%上回る。

Abstract

ロボットによるマニピュレーションにおける汎化の実現は、特に未見の状況や新規タスクにおいて、依然として重要な課題である。現在のビジョン・ランゲージ・アクション(VLA)モデルは、一般的なビジョン・ランゲージ・モデル(VLM)の上に構築されているものの、実体データセットに見られる希少性と異質性のために、堅牢なゼロショット性能を達成するには至っていない。これらの制約に対処するために、本稿では、空間関係の推論によって中間表現を生成する新しいビジョン・ランゲージ・モデルであるFSD(From Seeing to Doing)を提案する。これにより、ロボットのマニピュレーションに対してきめ細かなガイダンスを提供する。提案手法は、学習のための階層的データパイプラインと、空間座標を視覚信号に整合させる自己整合性メカニズムを組み合わせる。広範な実験を通じて、「見ること」と「行うこと」の両方におけるFSDの能力を包括的に検証し、一般的な空間推論および実体参照能力に関する8つのベンチマークで優れた性能を達成した。さらに、より挑戦的な提案ベンチマークVABenchでも同様の成果を示した。また、ロボットマニピュレーションにおけるゼロショット能力も検証し、SimplerEnvおよび実ロボット環境の両方で、ベースライン手法に対して大幅な性能向上を示した。実験結果は、FSDがSimplerEnvで成功率40.6%を達成し、8つの実世界タスクにおいては成功率72%を達成しており、最強のベースラインを30%上回ることを示している。