Mind the Gap Between Spatial Reasoning and Acting! Step-by-Step Evaluation of Agents With Spatial-Gym

arXiv cs.AI / 4/13/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 空間推論はロボティクスやナビゲーションに重要だが、既存ベンチマークが「一括(ワンショット)生成」に偏り、人間のような逐次的な行動評価になっていない点を問題提起している。
  • Spatial-Gymは2Dグリッドの経路探索を「逐次意思決定(オプションでバックトラック可)」として切り出すことで、空間制約の推論力を診断・比較できるGymnasium環境を提案している。
  • 8モデルを一括・逐次・逐次+バックトラックで評価した結果、最良でもGPT-OSS 120Bの解答率16.0%にとどまり、人間(98.0%)やA*等のベースラインとの差が大きかった。
  • 逐次フォーマットは弱いモデルでは改善(最大+5.4%)する一方で、強いモデルには不利(最大-5.6%)になり得ること、バックトラックは主に弱いモデルでのみ完了率を改善するが強いモデルは恩恵が小さいことを示している。
  • 追加実験として、難度に応じて推論努力をスケールできないこと、画像を与える視覚モデルは解答率が大幅に低下(-73%)すること、また長めの連鎖的推論(chain-of-thought)は逐次設定でも標準推論より3〜5倍高い精度優位を維持することを報告している。

Abstract

Spatial reasoning is central to navigation and robotics, yet measuring model capabilities on these tasks remains difficult. Existing benchmarks evaluate models in a one-shot setting, requiring full solution generation in a single response, unlike humans, who work in interactive environments step-by-step. We introduce Spatial-Gym, a Gymnasium environment that isolates spatial constraint reasoning by testing pathfinding in 2D-grid puzzles as a sequential decision task with optional backtracking. We evaluate eight models in three settings (one-shot, step-by-step, step-by-step with backtracking) against human, random, and A* baselines on 500 episodes. The best model, GPT-OSS 120B, achieves a solve rate of 16.0%, 82 points below the human baseline (98.0%). Step-by-step format helps weaker models (up to +5.4%) by removing formatting errors, but hurts stronger models (up to 5.6%) by constraining global planning. Backtracking improves episode completion, but increases solve rate only for weaker models; stronger models rarely backtrack and do not benefit from it. Our experiments have three key findings: (1) models fail to scale reasoning effort with difficulty, (2) vision models receiving images of the spatial environment reduce solve rate by 73%, and (3) extended chain-of-thought reasoning retains a 3-5x accuracy advantage over standard inference even in the step-by-step setting. Spatial-Gym enables diagnosis of model limitations and provides a framework for improving spatial reasoning through reinforcement learning.