広告

空間についてのコミュニケーション:部分視点をまたいだ言語媒介型の空間統合

arXiv cs.CV / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多モーダルLLMエージェントが対話によって協調し、部分的な自己中心的(egocentric)観測を、首尾一貫した全体志向的(allocentric:共有される)空間理解へ統合できるかを検討する。
  • 自然言語メッセージをやり取りする2つの静的なMLLMエージェントが空間クエリに答えるための、899の屋内3Dシーンと1250のQAペアからなるベンチマークCOSMICを導入する。これらは5つのタスクにまたがる。
  • 結果は能力の序列を示す。すなわち、モデルは視点をまたいで共有アンカーとなる物体を特定する(grounding)点が最も得意だが、関係推論は弱く、さらに、グローバルに一貫した地図を構築することにはほとんど失敗しており、フロンティア・システムでさえほぼ偶然(chance)に近い。
  • 「思考(thinking)」能力を追加するとアンカー特定の信頼性は向上するが、より高次の空間コミュニケーションやグローバル一貫性を意味のある形では実現しない。
  • 人対人の対話250件との比較では、人間ははるかに高い精度(最良モデルに対して95% vs 72%:Gemini-3-Pro-Thinking)を達成し、共有された心的モデルへ収束する。一方で、モデル同士の対話は収束せず探索を続けがちである。コード/データはGitHubで公開されている。

Abstract

人は、部分的で視点に依存する観測を共有しながら、共有された空間理解を構築します。私たちは、多モーダル大規模言語モデル(MLLM)が同様のことをできるのか、つまり対話を通じて異なる自視点(egocentric)の見えを整合させ、共有環境の首尾一貫した、他視点的な(allocentric)心的モデルを形成できるのかを問いかけます。これを体系的に調べるために、協調的空間コミュニケーションのためのベンチマークであるCOSMICを導入します。この設定では、静的な2つのMLLMエージェントが、異なる視点から3D屋内環境を観測し、空間クエリを解くために自然言語のメッセージを交換します。COSMICには、899の多様なシーンと、5つのタスクにまたがる1250の質問応答ペアが含まれます。私たちは一貫した能力の階層性を見出しました。MLLMは、複数の視点間で共有されるアンカー対象物(共有アンカー物体)を特定する点で最も信頼性が高く、関係推論ではよりうまくいかず、さらに大域的に首尾一貫したマップを構築することには概ね失敗しており、最先端のモデルであっても偶然に近い性能にとどまります。加えて、思考(thinking)能力がアンカーの基礎づけ(anchor grounding)において一貫した改善をもたらす一方で、より高度な空間コミュニケーションには不十分であることが分かりました。モデルの挙動を文脈づけるために、さらに250件の人対人の対話を収集しました。人間は合計で95%の精度を達成しており、最良の実行モデルであるGemini-3-Pro-Thinkingでさえ合計72%の精度にとどまることから、改善の余地は依然として大きいです。さらに、人間の会話は、パートナーが共有された心的モデルへ収束するにつれて、ますます具体的になります。一方でモデルの対話は、収束するというより新たな可能性を探り続けており、頑健な共有心的モデルを構築・維持する能力が限定的であることと整合します。私たちのコードとデータは https://github.com/ankursikarwar/Cosmic で公開しています

広告