見るから行うへ:ロボットによる操作のための推論と意思決定の橋渡し
arXiv cs.RO / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、未見の状況や新規タスクにおけるロボット操作の汎化性能を高めることを目的とした、視覚と言語のモデルFSD(From Seeing to Doing)を提案する。
- 一般的なVision-Language-Actionのアプローチとは異なり、FSDは空間関係の推論によって中間表現を生成し、物理的な操作に対するきめ細かなガイダンスを提供する。
- 本手法では、階層的な学習データのパイプラインと自己整合性メカニズムを用いて、空間座標と視覚信号を整合させ、限られた多様な体を備えたデータセットに起因する失敗の低減を目指す。
- 実験により、一般的な空間推論と体現的リファレンスに関する8つのベンチマーク、およびより難易度の高いVABenchで強い性能が検証される。
- ロボット操作において、著者らは大きなゼロショット改善を報告しており、SimplerEnvで成功率40.6%、実世界の8つのタスク全体で成功率72%を達成し、最も強力なベースラインに対して30%上回る。


