AmaraSpatial-10K:空間計算とエンボディドAI向けに空間的・意味的に整合した3Dデータセット

arXiv cs.CV / 2026/4/28

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Web規模の3Dアセット集は多いものの、メートル尺度の不整合、ピボットや前方軸の誤り、脆いジオメトリ、リライティングに不向きなテクスチャなどにより、実運用に十分対応していないことが多いです。
  • AmaraSpatial-10Kは、10,000点以上の合成3Dアセットを「量」だけでなく「下流利用」を前提にした形で提供し、メートル尺度で意味的にアンカーされた .glb、分離PBRマテリアルマップ、凸状のコリジョンハル、参照画像、豊富な複数文のテキストメタデータを同梱します。
  • データセットは統一された空間規約を採用し、屋内物、車両、建築物、生物、小物などのカテゴリを対象として、空間計算やエンボディドAIに向けた利用を想定しています。
  • 付随する評価スイートでは、Scale Plausibility Score(LLM-as-Judgeの区間プロトコルを含む)、LLM Concept Density、アンカー誤差、そしてクロスモーダルCLIPコヒーレンスなどの指標で3Dアセットバンクを監査します。
  • Objaverse由来のアセットと比べて、AmaraSpatial-10Kはテキストベース検索を大きく改善(CLIP Recall@5:0.612 vs 0.181、3.4倍向上、中央値ランクが267から3へ低下)し、物理を意識したシーン構成やエンボディドAI向けアセットバンクに必要な空間・意味要件を満たすことを示しつつ、下流評価は今後に委ねています。
  • AmaraSpatial-10KはHugging Faceで公開されています。