要旨: 空間推論はナビゲーションやロボティクスの中核ですが、これらのタスクにおけるモデルの能力を測定することは依然として難しいです。既存のベンチマークはワンショット設定でモデルを評価しており、単一の応答内で完全な解答生成が必要である一方、人間は対話的な環境で段階的に作業します。私たちは、Spatial-Gym を導入します。これは Gymnasium 環境であり、2Dグリッドのパズルにおける経路探索を、オプションでバックトラッキングを伴う逐次意思決定タスクとしてテストすることで、空間制約推論を切り離して評価します。8つのモデルを3つの設定(ワンショット、段階的、段階的かつバックトラッキングあり)で、人間・ランダム・A* の基準手法と、500エピソードに対して比較評価します。最良のモデルである GPT-OSS 120B は、解答率 16.0% を達成し、人間の基準(98.0%)から 82 ポイント下回りました。段階的な形式は、書式エラーを取り除くことで弱いモデル(最大 +5.4%)を助けますが、グローバルな計画を制約することで強いモデル(最大 5.6%)には不利に働きます。バックトラッキングはエピソード完了を改善しますが、解答率が伸びるのは弱いモデルに限られます。強いモデルはほとんどバックトラッキングせず、それによる恩恵もありません。私たちの実験には3つの主要な発見があります。(1)モデルは推論のための努力を難易度に応じてスケールできない、(2)空間環境の画像を受け取る視覚モデルは解答率を 73% 減少させる、(3)拡張された chain-of-thought(思考の鎖)推論は、段階的な設定であっても標準的な推論より 3〜5 倍の精度優位を保つ。Spatial-Gym は、モデルの限界を診断し、強化学習によって空間推論を改善するための枠組みを提供します。
空間推論と行動の間にあるギャップに注意!Spatial-Gymで行うエージェントの段階的評価
arXiv cs.AI / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 空間推論はロボティクスやナビゲーションに重要だが、既存ベンチマークが「一括(ワンショット)生成」に偏っており、人間のような逐次的な行動評価になっていない点を問題提起している。
- Spatial-Gymは2Dグリッドの経路探索を「逐次意思決定(オプションでバックトラック可)」として切り出すことで、空間制約の推論力を診断・比較できるGymnasium環境を提案している。
- 8モデルを一括・逐次・逐次+バックトラックで評価した結果、最良でもGPT-OSS 120Bの解答率16.0%にとどまり、人間(98.0%)やA*などのベースラインとの差が大きかった。
- 逐次フォーマットは弱いモデルでは改善(最大+5.4%)する一方で、強いモデルには不利(最大-5.6%)になり得ること、バックトラックは主に弱いモデルでのみ完了率を改善するが強いモデルは恩恵が小さいことを示している。
- 追加実験として、難度に応じて推論努力をスケールできないこと、画像を与える視覚モデルは解答率が大幅に低下(-73%)すること、また長めの連鎖的推論(chain-of-thought)は逐次設定でも標準推論より3〜5倍高い精度優位を維持することを報告している。




