MultihopSpatial: 視覚と言語モデルのためのマルチホップ合成的空間推論ベンチマーク

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • MultihopSpatial は、視覚と言語モデルにおけるマルチホップおよび組成的空間推論のベンチマークを導入し、さまざまな空間的視点にわたる1ホップ〜3ホップのクエリを網羅します。
  • Acc@50IoU を定義し、正しい回答の選択と正確な境界ボックスのグラウンディングを同時に要求する結合指標として、実世界の VLA パフォーマンスを反映します。
  • 視覚言語モデルの空間知性を大規模に訓練するための専用コーパス MultihopSpatial-Train が公開されます。
  • 37 の最先端 VLM に対する実験により、組成的空間推論が依然として難しい課題であることが示される一方、このコーパス上での訓練後の強化学習が、内在的な空間推論能力と下流の身体操作性能の両方を向上させる。

概要: 空間推論は Vision-Language Models (VLMs) の基盤であり、特に物理環境で Vision-Language-Action (VLA) エージェントとして展開される場合に重要です。しかし、既存のベンチマークは主に基本的な単一ホップの関係に焦点を当て、現実世界のシナリオに不可欠な多跳の組成的推論と正確な視覚グラウンディングを軽視しています。これに対処するために、MultihopSpatial を導入し、以下の3つの重要な貢献を提供します: (1) 多跳および組成的空間推論のために設計された総合的なベンチマークで、さまざまな空間的視点における1〜3ホップの複雑なクエリを特徴とします。 (2) Acc@50IoU、推論と視覚的グラウンディングを同時に評価する補完的な指標で、回答の選択と正確な境界ボックス予測の両方を要求します — 堅牢な VLA 配備に不可欠な能力です。 (3) MultihopSpatial-Train、空間知能を育てるための専用の大規模トレーニングコーパス。37種の最先端VLMの広範な評価は8つの重要な洞察を生み出し、組成的空間推論が依然として手強い課題であることを示しています。最後に、私たちのコーパス上でのトレーニング後の強化学習が、VLM自体の空間推論と下流の身体性を伴う操作性能の両方を向上させることを示します。