ピクセルからBFSへ：高い迷路精度は視覚的な計画を必ずしも意味しない

arXiv cs.LG / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダルモデルが真に視覚的な計画を行っているのか、それともトークン空間での総当たり探索に依存しているのかを検証するための、手続き的に生成された迷路画像110枚からなるベンチマーク「MazeBench」を導入する。
16種類のモデル構成にわたる実験では、GPT-5.4（91%）やGemini 3.1 Pro（79%）のようなモデルで強いリーダーボード精度が示されるが、著者らはこれらの結果は誤解を招くと主張している。というのも、モデルがしばしば大きな数のトークンを用いて経路を1手ずつ列挙するからである。
追加の推論用バジェットが与えられない場合、性能は2〜12%へと崩壊する。さらに、20×20の「超難」迷路では多くのモデルがトークン制限に到達して失敗し、堅牢性の低さが示唆される。
定性的分析では、一貫した2段階の手法が見られる。すなわち、画像をテキストのグリッドへ変換したうえで、文章中でBFSに似た経路探索を実行する、という流れである。加えてグリッドのアブレーションにより、下流の探索それ自体というよりも、弱い視覚抽出が失敗の大半を引き起こしていることが示される。
本ベンチマークは、視覚的な空間課題で高い精度が得られたとしても、それが必ずしも人間のような空間理解や計画を意味するわけではない、と結論づける。

Abstract

多モーダルモデルは視覚の空間タスクをどのように解くのか――真の計画によってか、それともトークン空間での総当たり探索によってか？　我々は、9つの制御されたグループにわたって手続き的に生成された迷路画像110枚からなるベンチマーク extsc{MazeBench} を導入し、OpenAI、Anthropic、Google、Alibaba の16種類のモデル構成を評価する。GPT-5.4 は 91 ext% 、Gemini 3.1 Pro は 79 ext% を解くが、これらのスコアは誤解を招く。というのも、モデルは一般に画像をテキストのグリッドに変換し、その後パスを1ステップずつ列挙することで解こうとし、人間が素早く行えるタスクに対して 1,710--22,818 トークンを消費するためである。追加の推論予算がない場合、すべての構成のスコアはわずか 2--12 ext% にとどまる。20

imes

20 の超難問迷路では、トークン制限に達して失敗する。定性的なトレースからは、共通する2段階戦略が明らかになる。すなわち、画像からグリッドへの変換の後、トークンレベルで探索する、というもので、実質的に散文における BFS である。テキストグリッドのアブレーションでは、Claude Sonnet 4.6 が画像のみの場合に 6 ext% だったのが、正しいグリッドを与えると 80 ext% まで上昇し、弱い視覚抽出と、その後段の探索を切り分けられることが示される。グリッドの構築やグラフ探索を明示的に行わないよう指示しても、モデルは依然として同じ列挙戦略へ回帰する。したがって extsc{MazeBench} は、視覚計画タスクにおける高い精度が、人間のような空間理解を意味するわけではないことを示している。