AI Navigate

ESPIRE: 視覚-言語モデルの具現化された空間推論の診断ベンチマーク

arXiv cs.CV / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ESPIREは、視覚-言語モデル(VLM)の具現化された空間推論の新しい診断ベンチマークとして紹介されます。
  • VLMを物理的に現実世界へ結びつけるシミュレーション世界を提供し、空間推論を中心としたロボット課題で評価し、評価を実世界の展開へ結びつけます。
  • 課題は局在化と実行に分解され、生成的な問題として定式化され、従来の識別的なVQAアプローチとは対照的です。
  • このベンチマークは、受動的な空間推論から行動指向の推論まで、細粒度の分析を可能にし、指示レベルと環境レベルの両方をカバーします。
  • 本研究はESPIREを用いて最先端のVLMを診断し、それらの空間推論挙動の詳細な分析を提供します。