空間についてのコミュニケーション:部分視点をまたいだ言語媒介型の空間統合
arXiv cs.CV / 2026/3/31
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多モーダルLLMエージェントが対話によって協調し、部分的な自己中心的(egocentric)観測を、首尾一貫した全体志向的(allocentric:共有される)空間理解へ統合できるかを検討する。
- 自然言語メッセージをやり取りする2つの静的なMLLMエージェントが空間クエリに答えるための、899の屋内3Dシーンと1250のQAペアからなるベンチマークCOSMICを導入する。これらは5つのタスクにまたがる。
- 結果は能力の序列を示す。すなわち、モデルは視点をまたいで共有アンカーとなる物体を特定する(grounding)点が最も得意だが、関係推論は弱く、さらに、グローバルに一貫した地図を構築することにはほとんど失敗しており、フロンティア・システムでさえほぼ偶然(chance)に近い。
- 「思考(thinking)」能力を追加するとアンカー特定の信頼性は向上するが、より高次の空間コミュニケーションやグローバル一貫性を意味のある形では実現しない。
- 人対人の対話250件との比較では、人間ははるかに高い精度(最良モデルに対して95% vs 72%:Gemini-3-Pro-Thinking)を達成し、共有された心的モデルへ収束する。一方で、モデル同士の対話は収束せず探索を続けがちである。コード/データはGitHubで公開されている。



