要旨: 基盤モデルは多様なタスクにおいて目覚ましい性能を示してきましたが、推論や計画のために内部の空間的ワールドモデルを構築する能力については、いまだ不明な点が残っています。私たちは、迷路タスクを通じて大規模言語モデルの空間理解を体系的に評価します。迷路タスクは、多段階の計画と空間的抽象化を必要とする、統制されたテスト環境です。Gemini-2.5-Flash、GPT-5-mini、Claude-Haiku-4.5、DeepSeek-Chatを用いた包括的な実験の結果、空間推論において看過できない大きな相違が見つかり、LLMの計画能力に関する前提に挑戦するものとなりました。思考過程(chain-of-thought)プロンプトを用いることで、Geminiは(5x5〜7x7グリッドの)小規模な迷路において、トークン化された隣接表現により80-86%の精度を達成します。しかし、視覚的なグリッド形式では精度が16-34%まで崩れます。これは2-5倍の差に相当し、形式に不変な空間推論というより、表現に依存する推論であることを示唆しています。さらに、連続する近接性に関する質問や、合成(組み合わせ)された距離比較を通じて空間理解を深掘りします。推論トレースにおいて意味的カバレッジが96-99%に達するにもかかわらず、モデルはこの理解を一貫した空間計算に活用できません。これは、累積的な空間知識を構築するのではなく、各質問を独立したものとして扱っていることを示しています。迷路を解くタスクに基づく私たちの発見は、LLMが頑健な空間的ワールドモデルを発達させるのではなく、狭い条件下でのみ成功する、表現依存かつプロンプト依存の推論を示すことを示唆します。これらの結果は、空間的抽象化を必要とするアプリケーションに基盤モデルを展開するうえで重大な意味を持ちます。
LLMは空間世界モデルを構築するのか?グリッドワールド・メイズ課題からの証拠
arXiv cs.AI / 2026/4/14
💬 オピニオンModels & Research
要点
- 本研究は、多段の計画と空間的抽象化を要する制御されたグリッドワールドの迷路タスクを用いて、LLMが内部の空間世界モデルを構築できるかどうかを検証する。
- Gemini-2.5-Flash、GPT-5-mini、Claude-Haiku-4.5、DeepSeek-Chatにわたる結果では、空間推論に大きな失敗が見られ、隣接関係をトークン化した表現(小さなグリッドで80〜86%)から視覚的なグリッド形式へ切り替えると性能が急落し、16〜34%に低下する。
- 連続的な近接関係と構成的距離に関する質問を用いた追跡プローブでは、推論トレースにおける高い意味的カバー率(96〜99%)が、信頼できる空間計算に結びつかないことが示され、モデルが空間知識を蓄積していないことを示唆する。
- 著者らは、LLMの空間推論は表現とプロンプトに依存しており、頑健で形式不変な空間世界モデルを形成するのではなく、狭い条件下でのみ成功すると結論づけている。
- これらの知見は、計画や推論において一貫した空間的抽象化を必要とするアプリケーションにファウンデーションモデルを投入することへの懸念を提起している。




