要旨: VLMの空間推論を強化するための、構造化された空間的グラウンディングを備えた効率的な手法である新規手法 AutoSpatial を提案します。最小限の手動スーパービジョンと、大規模なVisual Question-Answering(VQA)ペアの自動ラベリングを組み合わせることで、本アプローチは、ソーシャルナビゲーション課題におけるVLMの限定的な空間理解という課題に取り組みます。学習中に階層的な二ラウンドVQA戦略を適用することで、AutoSpatialは状況の大域的な理解と詳細な理解の両方を達成し、他のSOTA手法と比較して、より正確な空間認識、移動予測、Chain of Thought(CoT)推論、最終行動、および説明を示します。これら5つの要素は、包括的なソーシャルナビゲーション推論に不可欠です。本手法は、相互検証スコアを提供した専門家システム(GPT-4o、Gemini 2.0 Flash、Claude 3.5 Sonnet)と、4つの重要な側面にわたってモデル性能を比較するために相対的な順位付けを行った人間評価者の両方を用いて評価しました。強化された空間推論能力によって補強されることで、本手法は、手動で注釈付けされたデータのみで学習したベースラインモデルと比較して、専門家システムから得られた平均の相互検証スコアが次の領域で大幅に向上します:知覚&予測(最大10.71%)、推論(最大16.26%)、行動(最大20.50%)、説明(最大18.73%)。
AutoSpatial:効率的な空間推論学習によるソーシャルロボットのナビゲーションのための視覚言語推論
arXiv cs.RO / 2026/5/5
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- AutoSpatialは、構造化された空間グラウンディングを用いて、視覚言語モデル(VLM)の空間推論をソーシャルロボットのナビゲーション向けに高めることを目的とした新しい学習手法です。
- 手作業によるラベル付けへの依存を、最小限の監督と、大規模なVQA(Visual Question Answering)ペアの自動ラベリングを組み合わせることで低減しています。
- 階層型の2ラウンドVQA学習により、シーンの大域的な文脈と細かな状況理解の両方を獲得し、CoT推論や最終的な行動判断の精度を向上させます。
- 評価は、専門家システム(GPT-4o、Gemini 2.0 Flash、Claude 3.5 Sonnet)によるクロスバリデーションのスコアリングと、人間によるランキング付けを用いて、知覚・推論・行動・説明の4観点で行われています。
- 手作業で注釈されたデータのみで学習したベースラインモデルと比べ、AutoSpatialは知覚・予測、推論、行動、説明で平均的に大きな改善を示し、それぞれ最大で約10.71% / 16.26% / 20.50% / 18.73%の向上が報告されています。




