SpatiO:空間推論のためのビジョン・ランゲージエージェントの適応的テストタイム・オーケストレーション
arXiv cs.CV / 2026/4/24
📰 ニュースModels & Research
要点
- SpatiOは、空間推論において2D外観・深度・幾何制約などの手がかりの信頼性が状況ごとに変わる点に着目し、それに対応するための異種マルチエージェント・フレームワークを提案しています。
- さらに、推論時にTest-Time Orchestration(TTO)を用いて各エージェントの信頼性を観測にもとづいて動的に評価・再重み付けし、モデルのパラメータは更新しない仕組みを示しています。
- 複数の「ビジョン・ランゲージ専門家」を相補的な帰納バイアスとともに連携させることで、単一パイプラインが固定の空間プライオルを暗黙に学習してしまう制約を乗り越えることを狙っています。
- 3DSRBench、STVQA-7k、CV-Bench、Omni3D-Benchといった複数の空間推論ベンチマークで、閉発(クローズドソース)および公開(オープンソース)の双方のベースラインに対して一貫した性能向上が報告されています。


