Spatial Competence Benchmark
arXiv cs.AI / 4/14/2026
📰 NewsIdeas & Deep AnalysisTools & Practical UsageModels & Research
Key Points
- 本論文は、大規模モデルの空間評価が3D変換による単一プリミティブのプロービングやVQAに偏っている点を指摘し、実行可能な出力を検証可能な評価として定義するSpatial Competence Benchmark(SCBench)を提案しています。
- SCBenchは能力を3つの階層的バケットに分け、決定論的チェッカーまたはシミュレータベース評価で出力を検証するタスク群により、制約下で環境の離散構造推論と行動計画を測定します。
- 3つの最先端モデルでは、能力ラダーを上げるほど精度が単調に低下し、出力トークン上限を変えた検証では低い予算でのみ伸びが集中して早期に飽和することが示されます。
- 失敗の主因は局所的にはもっともらしい幾何が、全体の制約を破ってしまうケースであり、タスクジェネレータ、検証器、可視化ツールも公開されています。




