SPEAR-1：ロボットのデモンストレーションを超えて拡張するための3D理解

arXiv cs.RO / 2026/4/28

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ロボティック基盤モデル（RFM）の汎化が伸びにくい主因として、2Dの画像に対する言語タスクで学習されたVLMを微調整して作られることが多く、3D空間での身体化制御に必要な3D空間推論が欠けている点を挙げている。
高価でスケールしにくいロボットデータを増やす代わりに、収集しやすい非ロボットの画像データに3Dアノテーションを付与し、事前学習済みVLMへ3D理解能力を強化する方針を提案している。
著者らは、単一の2D画像から3D空間上の物体座標を推定する3D対応VLMであるSPEAR-VLMを学習し、さらにそれを基に、言語で指示された身体化制御と、接地された3D知覚を統合したSPEAR-1を構築している。
SPEAR-1は24のOpen X-Embodimentデータセットから約4500万フレームで学習され、π0-FASTやπ0.5のようなSOTAモデルと同等以上の性能を示す一方で、ロボットのデモンストレーションは約20倍少ないと報告されている。
モデルの重みと、3Dアノテーション付きデータセットを公開し、さらなる研究や再現を支援している。

要旨: ロボティック基盤モデル（RFMs）は、ロボット制御のための汎用的でエンドツーエンドなシステムとして、大きな可能性を秘めています。しかし、新しい環境・タスク・身体（エンボディメント）にわたって汎化する能力はいまだ限定的です。私たちは主要なボトルネックが基盤部分にあると主張します。すなわち、ほとんどのRFMは、インターネットで事前学習された視覚言語モデル（VLM）を微調整して構築されています。しかし、これらのVLMは2Dの画像-言語タスクで訓練されており、3D世界で身体化された制御に本質的に必要となる3D空間推論を欠いています。このギャップを、大規模なロボティックデータで直接埋めることはコストが高く、規模を拡大するのが困難です。そこで私たちは、収集しやすい非ロボティックの画像データに3Dアノテーションを付与して強化し、さらに事前学習済みVLMに3D理解の能力を付け加えることを提案します。この方針に従い、単一の2D画像から3D空間における物体座標を推定する、3D対応VLMであるSPEAR-VLMを訓練します。SPEAR-VLMに基づき、私たちの主要な貢献である $~\textbf{SPEAR-1}$ 、すなわち、言語による指示に基づく身体化された制御と、グラウンディングされた3D知覚を統合したロボティック基盤モデルを導入します。24のOpen X-Embodimentデータセットからの $\sim$ 45Mフレームで訓練したSPEAR-1は、 $\pi_0$ -FASTや $\pi_{0.5}$ のような最先端モデルを上回る、または同等の性能を達成しつつ、ロボットのデモンストレーションは20倍少ない数で済みます。この入念に設計された訓練戦略は、新たなVLM能力を引き出し、その結果、ロボティックデータだけでは到達できないレベルまで身体化された制御の信頼性を高めます。モデル重みと3Dアノテーション付きデータセットは、https://spear.insait.ai で公開します。