Spatial Competence Benchmark

arXiv cs.AI / 2026/4/14

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、大規模モデルの空間評価が3D変換による単一プリミティブのプロービングやVQAに偏っている点を指摘し、実行可能な出力を検証可能な評価として定義するSpatial Competence Benchmark（SCBench）を提案しています。
SCBenchは能力を3つの階層的バケットに分け、決定論的チェッカーまたはシミュレータベース評価で出力を検証するタスク群により、制約下で環境の離散構造推論と行動計画を測定します。
3つの最先端モデルでは、能力ラダーを上げるほど精度が単調に低下し、出力トークン上限を変えた検証では低い予算でのみ伸びが集中して早期に飽和することが示されます。
失敗の主因は局所的にはもっともらしい幾何が、全体の制約を破ってしまうケースであり、タスクジェネレータ、検証器、可視化ツールも公開されています。

要旨: 空間的コンピテンスとは、環境の一貫した内部表現を維持し、それを用いて離散的な構造を推論し、制約の下で行動を計画する能力である。大規模モデルに対する既存の空間評価は、3D変換によって孤立したプリミティブを調べること、または視覚質問応答によって評価することに限られている。本研究では、タスクの実行可能な出力が決定論的チェッカーまたはシミュレータベースの評価器によって検証される、3つの階層的能力バケットにまたがるSpatial Competence Benchmark（SCBench）を導入する。SCBenchでは、3つの最先端モデルが、能力ラダーを上るにつれて精度が単調に低下することが示される。出力トークン上限を走査すると、精度向上は低予算に集中し、すぐに頭打ちになること、また失敗はグローバルな制約を破る局所的にもっともらしい幾何によって支配されることが分かる。我々は、タスク生成器、検証器、可視化ツールを公開する。

Black Hat USA

AI Business

Black Hat Asia

AI Business

CloudflareがAIエージェントへの最適化を目指し、全サービスに対応するCLIの開発を表明

Publickey

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

日経XTECH

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

Spatial Competence Benchmark

要点

関連記事

Black Hat USA

Black Hat Asia

CloudflareがAIエージェントへの最適化を目指し、全サービスに対応するCLIの開発を表明

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

Black Hat Asia

CloudflareがAIエージェントへの最適化を目指し、全サービスに対応するCLIの開発を表明

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し