テキストによる表現に導かれる推論を通じて、マルチモーダル大規模言語モデルにおける空間推論を解き放つ

arXiv cs.CL / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現在のマルチモーダル大規模言語モデル(MLLMs)が3D空間推論においてしばしば十分に性能を発揮できないのは、動画入力から3Dシーンの構造化された抽象表現を構築できていないためだと主張する。
  • その提案としてTRACEというプロンプト手法を提示し、自己中心的(エゴセントリック)な動画から、カメラ軌道、メタコンテキスト、物体エンティティを含む、客観的(アロセントリック/世界中心)な3D文脈のテキストによる中間表現を生成する。
  • この手法は、空間質問への回答においてより正確に推論できるように、MLLMがこれらのテキストベースの空間トレースを考察するよう導くことを目的としている。
  • VSI-BenchおよびOST-Benchでの実験により、多数のMLLMバックボーンや学習/スケールの設定にまたがって、先行するプロンプト手法に比べて一貫した改善が示される。
  • 設計上の選択を検証し、MLLMにおける3D空間推論の限界がどこで生じるのかを明確にするため、アブレーション分析およびボトルネック分析も含まれている。

要旨: 既存のマルチモーダル大規模言語モデル(MLLMs)は、3D空間の推論に苦戦しています。これは、動画入力として提示された3D環境の構造化された抽象表現を構築できないためです。このギャップを埋めるために、アロセントリック(外界中心の)空間推論に関する認知理論から着想を得て、MLLMsが動画のテキストベースの空間表現をモデル化し、推論できるようにする方法を探究します。具体的には、TRACE(Egocentric VideoからのAllocentric Contextのテキスト表現)というプロンプト手法を提案します。これは、より正確な空間質問応答のための中間推論トレースとして、3D環境のテキストベース表現を生成するようにMLLMsを誘導します。TRACEは、メタコンテキスト、カメラ軌跡、詳細なオブジェクトの実体をエンコードし、エゴセントリック(自己中心の)動画に対する構造化された空間推論を支援します。VSI-BenchおよびOST-Benchに関する大規模な実験により、TRACEが、異なるパラメータ規模や学習スキーマにまたがる多様なMLLMバックボーンにおいて、先行するプロンプト戦略に比べて顕著かつ一貫した改善をもたらすことが示されます。さらに、設計上の選択を検証するためのアブレーション研究を提示するとともに、MLLMsにおける3D空間推論のボトルネックを掘り下げる詳細な分析も行います。