Abstract
多モーダルモデルは視覚の空間タスクをどのように解くのか――真の計画によってか、それともトークン空間での総当たり探索によってか? 我々は、9つの制御されたグループにわたって手続き的に生成された迷路画像110枚からなるベンチマーク extsc{MazeBench} を導入し、OpenAI、Anthropic、Google、Alibaba の16種類のモデル構成を評価する。GPT-5.4 は 91 ext% 、Gemini 3.1 Pro は 79 ext% を解くが、これらのスコアは誤解を招く。というのも、モデルは一般に画像をテキストのグリッドに変換し、その後パスを1ステップずつ列挙することで解こうとし、人間が素早く行えるタスクに対して 1,710--22,818 トークンを消費するためである。追加の推論予算がない場合、すべての構成のスコアはわずか 2--12 ext% にとどまる。20 imes20 の超難問迷路では、トークン制限に達して失敗する。定性的なトレースからは、共通する2段階戦略が明らかになる。すなわち、画像からグリッドへの変換の後、トークンレベルで探索する、というもので、実質的に散文における BFS である。テキストグリッドのアブレーションでは、Claude Sonnet 4.6 が画像のみの場合に 6 ext% だったのが、正しいグリッドを与えると 80 ext% まで上昇し、弱い視覚抽出と、その後段の探索を切り分けられることが示される。グリッドの構築やグラフ探索を明示的に行わないよう指示しても、モデルは依然として同じ列挙戦略へ回帰する。したがって extsc{MazeBench} は、視覚計画タスクにおける高い精度が、人間のような空間理解を意味するわけではないことを示している。