SpatialEvo：決定論的な幾何学的環境による自己進化型の空間知能

arXiv cs.CL / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

SpatialEvoの論文は、3D空間推論における重要なボトルネックに取り組む。具体的には、幾何学的注釈のコストが高いこと、そして自己進化型の学習が擬似ラベルの合意によってモデル自身の既存の幾何学的誤りを強化してしまう傾向がある点である。
モデルの関与なしに、点群とカメラ姿勢から真値（正解）を正確に計算する「決定論的な幾何学的環境（DGE）」を導入し、客観的な物理的フィードバックを提供する。
SpatialEvoは、明示的な幾何学的検証ルールに基づく16の空間推論タスクカテゴリを定義し、注釈のない3Dシーンを、学習用のゼロノイズな対話型オラクルへと変換する。
この枠組みでは、同一の共有パラメータを持つ方策（ポリシー）を用い、「質問者」と「解答者」という役割間で共同進化させる。質問はシーン観測から生成され、解答はDGE由来の真値に基づいて検証される。
9つのベンチマークでの実験では、3Bおよび7Bパラメータ規模において平均スコアが最も良好であり、視覚的理解の性能を維持しつつ空間推論を改善することが示される。

概要: 3次元シーンに対する空間推論は、身体性を備えたインテリジェンスにとって中核となる能力ですが、モデルの継続的な改善は幾何学的注釈のコストによってボトルネック化しています。自己進化（self-evolving）のパラダイムは有望な道筋を提供しますが、疑似ラベルを構築するためにモデル間の合意（consensus）に依存するため、学習がモデル自身の幾何学的誤りを「修正する」のではなく「強化する」ことになります。私たちは、この制約を回避する、3D空間推論に特有の性質を特定します。それは、真のラベル（ground truth）が、基礎となる幾何学からの決定論的な帰結として定まるという性質です。点群とカメラ姿勢からモデルの関与なしに、正確に計算可能です。この洞察に基づき、私たちは3D空間推論のための自己進化フレームワークであるSpatialEvoを提案します。SpatialEvoは、決定論的幾何学環境（Deterministic Geometric Environment: DGE）を中心に据えています。DGEは、明示的な幾何学的検証ルールのもとで16種類の空間推論タスクカテゴリーを形式化し、注釈のない3Dシーンをゼロノイズのインタラクティブなオラクルへと変換します。これにより、モデル間合意を、客観的な物理的フィードバックに置き換えます。DGEの制約下で、質問者（questioner）と解答者（solver）の役割間にまたがって、単一の共有パラメータの方策が共同で（co-evolve）進化します。質問者は、シーン観測に基づく物理的に妥当な空間質問を生成し、解答者は、DGEで検証された真のラベルに対して正確な解答を導きます。タスク適応型スケジューラは内生的に、モデルの最も弱いカテゴリーへの学習を集中させ、手作業による設計なしで動的カリキュラムを生成します。9つのベンチマークにわたる実験により、SpatialEvoが3Bおよび7Bの両スケールで最高の平均スコアを達成し、空間推論ベンチマークで一貫した向上が見られる一方、一般的な視覚理解において劣化は生じないことを示します。