GeoAlign:MLLMの空間推論のための幾何学的特徴再配置
arXiv cs.CL / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、MLLMに静的で単一層の幾何学的特徴を単に注入するだけでは、「タスク不整合バイアス」が生じ得ると主張している。具体的には、これらの特徴は、MLLMの多様な空間推論ニーズではなく、3D基盤モデルの事前学習目的へとドリフトしてしまう。
- GeoAlignを提案し、階層的な幾何学的特徴バンクを構築する。そして、MLLM自身の視覚トークンを内容に応じたクエリとして用い、レイヤーごとの疎なルーティングと、画像パッチごとに適切な幾何学的特徴を動的に取得することで実現する。
- VSI-Bench、ScanQA、SQA3Dに対する実験では、提案手法がマルチモーダルな空間推論性能を向上させることが示されており、コンパクトな4Bモデルで最先端の結果に到達している。
- 本手法は、より大きな既存のMLLMを上回ることができ、空間推論タスクでは、モデル規模よりも、より良い幾何学的アラインメント(動的な多層集約によるもの)の方が重要である可能性を示唆している。
- 全体として、GeoAlignは幾何学的特徴注入を、一度きりの特徴抽出ステップではなく、適応的なアラインメント問題として捉え直す。推論時に不均質な空間要求により適合することを目指している。




