Spatial Competence Benchmark

arXiv cs.AI / 2026/4/14

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、大規模モデルの空間評価が3D変換による単一プリミティブのプロービングやVQAに偏っている点を指摘し、実行可能な出力を検証可能な評価として定義するSpatial Competence Benchmark(SCBench)を提案しています。
  • SCBenchは能力を3つの階層的バケットに分け、決定論的チェッカーまたはシミュレータベース評価で出力を検証するタスク群により、制約下で環境の離散構造推論と行動計画を測定します。
  • 3つの最先端モデルでは、能力ラダーを上げるほど精度が単調に低下し、出力トークン上限を変えた検証では低い予算でのみ伸びが集中して早期に飽和することが示されます。
  • 失敗の主因は局所的にはもっともらしい幾何が、全体の制約を破ってしまうケースであり、タスクジェネレータ、検証器、可視化ツールも公開されています。

要旨: 空間的コンピテンスとは、環境の一貫した内部表現を維持し、それを用いて離散的な構造を推論し、制約の下で行動を計画する能力である。大規模モデルに対する既存の空間評価は、3D変換によって孤立したプリミティブを調べること、または視覚質問応答によって評価することに限られている。本研究では、タスクの実行可能な出力が決定論的チェッカーまたはシミュレータベースの評価器によって検証される、3つの階層的能力バケットにまたがるSpatial Competence Benchmark(SCBench)を導入する。SCBenchでは、3つの最先端モデルが、能力ラダーを上るにつれて精度が単調に低下することが示される。出力トークン上限を走査すると、精度向上は低予算に集中し、すぐに頭打ちになること、また失敗はグローバルな制約を破る局所的にもっともらしい幾何によって支配されることが分かる。我々は、タスク生成器、検証器、可視化ツールを公開する。