見て、覚えて、探る:ストリーミング空間推論のためのベンチマークとベースライン
arXiv cs.CV / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- クエリ時刻までに観測可能だった情報のみに基づいて回答する必要がある(時間的に根拠づけられた評価)新しいストリーミング空間質問応答ベンチマーク・スイートS3-Benchを紹介する。
- 現在の視点だけでは証拠が不十分な場合に、モデルが探索(例:移動/回転/スキャン)して不足情報を取得する必要がある能動知覚の設定を提案する。
- S3-Benchを、拡張可能なシミュレータ(制御可能な軌道と探索アクション)と実世界のストリーミング動画の両方で設計し、実運用のセンシングアーティファクト下での汎化を検証する。
- メモリのフォールディング(長期の観測を構造化されたメモリに圧縮)と、アクションに基づく探索により、計算量を制約したストリーミング空間推論を可能にするAMF-VLMを開発する。
- 同一データで訓練されたベースラインに対して大きな改善を報告しており、シミュレートされたS3-Eval分割と実データのS3-Eval分割でそれぞれ8.8%および13.3%の向上を達成しつつ、標準的な空間ベンチマークへの競争力ある転移も維持している。