Spatial Atlas: 空間認識研究エージェントのベンチマークに向けた計算に基づく推論

arXiv cs.AI / 2026/4/15

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMが最終回答を生成する前に、各サブ問題を決定論的な計算によって解決することで、空間認識対応の研究エージェントに対する計算に基づく推論(CGR)というパラダイムを提案する。
  • Spatial Atlasは、単一のエージェント間(A2A)サーバでCGRを実装し、2つのベンチマークをサポートする。マルチモーダルな空間QAを扱うFieldWorkArenaと、75のKaggleのMLコンペティションを対象としエンドツーエンドのエンジニアリングを要求するMLE-Benchである。
  • 構造化された空間シーングラフ・エンジンが、視覚記述からエンティティと関係を抽出し、距離や安全違反を決定論的に計算したうえで、その計算済みの事実をLLMへ渡すことで、幻覚的な空間推論を抑制する。
  • システムは、情報獲得を効率化するためにエントロピーに基づく行動選択を用い、3層のフロンティアモデル・スタック(OpenAI + Anthropic)にまたがってクエリをルーティングする。
  • さらに、戦略を意識したコード生成を含む自己修復型のMLパイプライン、スコアリングに導かれる反復的な改善ループ、信頼性と解釈可能性のためのプロンプトベースの「リーク監査」レジストリも備えている。

要旨: 私たちは、言語モデルに生成を求める前に、各解答可能な部分問題を決定論的な計算によって解決するという設計パラダイムである、計算に裏付けられた推論(CGR: compute-grounded reasoning)を提案します。Spatial Atlas は、CGR を単一の Agent-to-Agent(A2A)サーバとして具現化し、2 つの難しいベンチマークを扱います。1 つ目は FieldWorkArena であり、工場、倉庫、そして小売環境にまたがるマルチモーダル空間質問応答ベンチマークです。2 つ目は MLE-Bench であり、75 件の Kaggle 機械学習コンペからなる一連のベンチマークで、エンドツーエンドの ML エンジニアリングを要します。構造化された空間シーングラフエンジンが、視覚記述からエンティティと関係を抽出し、距離と安全性違反を決定論的に計算してから、計算された事実を大規模言語モデルへ渡します。これにより、幻覚的な空間推論を回避します。エントロピーに導かれた行動選択は、ステップごとの情報獲得量を最大化し、3 層のフロンティアモデルのスタック(OpenAI + Anthropic)をまたいで問い合わせをルーティングします。戦略を考慮したコード生成を備えた自己修復型の ML パイプライン、スコア駆動の反復的な改良ループ、そしてプロンプトベースのリーク監査レジストリが、システムを完成させます。私たちは両方のベンチマークで評価を行い、CGR が競争力のある精度を達成しつつ、構造化された中間表現と決定論的な空間計算を通じて解釈可能性を維持することを示します。