SpatiO：空間推論のためのビジョン・ランゲージエージェントの適応的テストタイム・オーケストレーション

arXiv cs.CV / 2026/4/24

📰 ニュースModels & Research

共有:

要点

SpatiOは、空間推論において2D外観・深度・幾何制約などの手がかりの信頼性が状況ごとに変わる点に着目し、それに対応するための異種マルチエージェント・フレームワークを提案しています。
さらに、推論時にTest-Time Orchestration（TTO）を用いて各エージェントの信頼性を観測にもとづいて動的に評価・再重み付けし、モデルのパラメータは更新しない仕組みを示しています。
複数の「ビジョン・ランゲージ専門家」を相補的な帰納バイアスとともに連携させることで、単一パイプラインが固定の空間プライオルを暗黙に学習してしまう制約を乗り越えることを狙っています。
3DSRBench、STVQA-7k、CV-Bench、Omni3D-Benchといった複数の空間推論ベンチマークで、閉発（クローズドソース）および公開（オープンソース）の双方のベースラインに対して一貫した性能向上が報告されています。

Abstract

視覚シーンを理解するには、対象物を認識するだけでなく、それらの空間的な関係について推論することも必要です。一般的な視覚-言語タスクとは異なり、空間推論では、2Dの見た目の手がかり、深度の信号、幾何学的制約など、複数の帰納バイアスを統合する必要がありますが、それらの信頼性は状況によって異なります。これは、効果的な空間推論には\emph{空間的適応性}、すなわち入力に応じて異なる推論戦略を柔軟に調整する能力が必要であることを示唆しています。しかし、既存の多くの手法は単一の推論パイプラインに依存しており、そこでは固定された空間事前（prior）を暗黙的に学習してしまうため、分布が変化した際に適応する能力が制限されます。マルチエージェントシステムは、さまざまな推論軌跡を集約することで有望な代替手段となりますが、空間推論における先行研究の多くは主に同質なエージェントを用いており、活用できる帰納バイアスの多様性が制限されています。本研究では、補完的な帰納バイアスをもつ複数の視覚-言語の専門家を連携させる、不均質マルチエージェントによる空間推論フレームワーク \textbf{\textsc{SpatiO}} を導入します。効果的な協調を可能にするために、推論時に観測される信頼性に基づいてエージェントを動的に評価し、重み付けし直す最適化メカニズムである \textbf{Test-Time Orchestration (TTO)} を提案します。この仕組みはモデルのパラメータを変更せずに動作します。3DSRBench、STVQA-7k、CV-Bench、Omni3D-Bench を含む多様な空間推論ベンチマークに対する大規模な実験により、\textsc{SpatiO} がクローズドソースおよびオープンソースの両方のベースラインに比べて、常に空間推論性能を向上させることが示されます。