PinpointQA:屋内動画における小さな物体中心の空間理解のためのデータセットとベンチマーク

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsModels & Research

要点

  • PinpointQAは、屋内動画における小さな物体中心の空間理解を特に対象とした、最初のデータセットおよびベンチマークとして提示されており、正確な対象のローカライズと位置の記述に焦点を当てています。
  • ベンチマークはScanNet++およびScanNet200から派生した1,024シーンと10,094のQAペアを含み、TPV、NRI、FSD、SSPの4つの段階的に難しくなるタスクに構成されています。
  • QA生成では、中間的な空間表現を活用して自動作成を行い、さらに品質管理による改良を加えることで、評価の信頼性を高めています。
  • 代表的なマルチモーダルLLMを用いた実験では、タスクの進行に伴い一貫した性能ギャップが観察され、特にStructured Spatial Prediction(SSP)が難しいことが示されました。
  • PinpointQAでの教師あり微調整により大きな改善が得られ、当該データセットが診断用ベンチマークとしても、下流の空間推論を改善するための学習データとしても有用であることが示されています。

要旨: 室内動画における小さな物体に焦点を当てた空間理解は、多モーダル大規模言語モデル(MLLMs)にとって、物体検索や支援アプリケーションにとって実用上価値があるにもかかわらず、依然として大きな課題である。既存のベンチマークは、動画の空間インテリジェンス、身体化された推論、診断的知覚を前進させてきたものの、モデルが動画内の目標物体を特定し、下流用途に十分な精度でその位置を表現できるかどうかを直接評価する既存ベンチマークは存在しない。本研究では、室内動画における小さな物体中心の空間理解のための最初のデータセットおよびベンチマークであるPinpointQAを導入する。ScanNet++およびScanNet200から構築されたPinpointQAは、1,024シーンと10,094のQAペアから成り、4つの段階的に難しくなるタスクとして整理されている:Target Presence Verification(TPV)、Nearest Reference Identification(NRI)、Fine-Grained Spatial Description(FSD)、Structured Spatial Prediction(SSP)。データセットは中間的な空間表現に基づいて構築され、QAペアは自動的に生成され、さらに品質管理によって洗練されている。代表的なMLLMに対する実験では、段階的な連鎖に沿って一貫した能力ギャップが見られ、特にSSPが難しいままである。PinpointQAに対する教師あり微調整は、大きな改善をもたらし、特に難しいタスクで顕著であり、PinpointQAが診断ベンチマークであると同時に効果的な学習データセットとして機能することを示している。データセットおよびプロジェクトページは https://rainchowz.github.io/PinpointQA で利用可能である。