SpaMEM:行動列に基づく知覚・メモリ統合で動的な空間推論をベンチマーク化

arXiv cs.CV / 2026/4/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文では、行動によって環境が変化する状況で、見えている情報から信念を継続的に更新しながら長期的な空間的一貫性を保てるかを測るための新しい大規模診断ベンチマーク「SpaMEM」を提案しています。
  • SpaMEMは、RGB・深度・インスタンス・セマンティックセグメンテーションの4モダリティにまたがる10,601,392枚の高精細画像からなり、1,000の手続き生成された家で25,000件以上の行動シーケンスをもとに構築されています。
  • ベンチマークは、空間推論を3段階の階層(単一観測からの原子的知覚、オラクルのテキスト状態履歴による時間推論、そして生の視覚ストリームからの終端的な信念維持)で設計し、合計15の診断タスクを定義しています。
  • 代表的なオープンソースVLMファミリを評価した結果、座標整合的なグラウンディングが「ボトルネック」として一貫して難しく、さらにLevel 2からLevel 3への急激な性能低下から、視覚的なエピソード記憶よりもテキスト/記号的な帳簿付けへの依存が強いことが示唆されています。
  • 著者らは、SpaMEMが失敗要因を細かく診断できることを通じて、状態表現・信念更新・長期のエピソード統合のための明示的な仕組みを促すと述べています。