テキストによる表現に導かれる推論を通じて、マルチモーダル大規模言語モデルにおける空間推論を解き放つ

arXiv cs.CL / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、現在のマルチモーダル大規模言語モデル（MLLMs）が3D空間推論においてしばしば十分に性能を発揮できないのは、動画入力から3Dシーンの構造化された抽象表現を構築できていないためだと主張する。
その提案としてTRACEというプロンプト手法を提示し、自己中心的（エゴセントリック）な動画から、カメラ軌道、メタコンテキスト、物体エンティティを含む、客観的（アロセントリック／世界中心）な3D文脈のテキストによる中間表現を生成する。
この手法は、空間質問への回答においてより正確に推論できるように、MLLMがこれらのテキストベースの空間トレースを考察するよう導くことを目的としている。
VSI-BenchおよびOST-Benchでの実験により、多数のMLLMバックボーンや学習／スケールの設定にまたがって、先行するプロンプト手法に比べて一貫した改善が示される。
設計上の選択を検証し、MLLMにおける3D空間推論の限界がどこで生じるのかを明確にするため、アブレーション分析およびボトルネック分析も含まれている。

要旨: 既存のマルチモーダル大規模言語モデル（MLLMs）は、3D空間の推論に苦戦しています。これは、動画入力として提示された3D環境の構造化された抽象表現を構築できないためです。このギャップを埋めるために、アロセントリック（外界中心の）空間推論に関する認知理論から着想を得て、MLLMsが動画のテキストベースの空間表現をモデル化し、推論できるようにする方法を探究します。具体的には、TRACE（Egocentric VideoからのAllocentric Contextのテキスト表現）というプロンプト手法を提案します。これは、より正確な空間質問応答のための中間推論トレースとして、3D環境のテキストベース表現を生成するようにMLLMsを誘導します。TRACEは、メタコンテキスト、カメラ軌跡、詳細なオブジェクトの実体をエンコードし、エゴセントリック（自己中心の）動画に対する構造化された空間推論を支援します。VSI-BenchおよびOST-Benchに関する大規模な実験により、TRACEが、異なるパラメータ規模や学習スキーマにまたがる多様なMLLMバックボーンにおいて、先行するプロンプト戦略に比べて顕著かつ一貫した改善をもたらすことが示されます。さらに、設計上の選択を検証するためのアブレーション研究を提示するとともに、MLLMsにおける3D空間推論のボトルネックを掘り下げる詳細な分析も行います。

テクノロジー「AI警告危険人物」

note

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

ぽんず｜管理職のAI仕事術

note

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

note

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

note

テキストによる表現に導かれる推論を通じて、マルチモーダル大規模言語モデルにおける空間推論を解き放つ

要点

関連記事

テクノロジー「AI警告危険人物」

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

ぽんず｜管理職のAI仕事術

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer