Mind the Gap Between Spatial Reasoning and Acting! Step-by-Step Evaluation of Agents With Spatial-Gym
arXiv cs.AI / 4/13/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 空間推論はロボティクスやナビゲーションに重要だが、既存ベンチマークが「一括(ワンショット)生成」に偏り、人間のような逐次的な行動評価になっていない点を問題提起している。
- Spatial-Gymは2Dグリッドの経路探索を「逐次意思決定(オプションでバックトラック可)」として切り出すことで、空間制約の推論力を診断・比較できるGymnasium環境を提案している。
- 8モデルを一括・逐次・逐次+バックトラックで評価した結果、最良でもGPT-OSS 120Bの解答率16.0%にとどまり、人間(98.0%)やA*等のベースラインとの差が大きかった。
- 逐次フォーマットは弱いモデルでは改善(最大+5.4%)する一方で、強いモデルには不利(最大-5.6%)になり得ること、バックトラックは主に弱いモデルでのみ完了率を改善するが強いモデルは恩恵が小さいことを示している。
- 追加実験として、難度に応じて推論努力をスケールできないこと、画像を与える視覚モデルは解答率が大幅に低下(-73%)すること、また長めの連鎖的推論(chain-of-thought)は逐次設定でも標準推論より3〜5倍高い精度優位を維持することを報告している。
Related Articles

Black Hat Asia
AI Business

I built the missing piece of the MCP ecosystem
Dev.to

When Agents Go Wrong: AI Accountability and the Payment Audit Trail
Dev.to

Google Gemma 4 Review 2026: The Open Model That Runs Locally and Beats Closed APIs
Dev.to

OpenClaw Deep Dive Guide: Self-Host Your Own AI Agent on Any VPS (2026)
Dev.to