GeoAlign:MLLMの空間推論のための幾何学的特徴再配置

arXiv cs.CL / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、MLLMに静的で単一層の幾何学的特徴を単に注入するだけでは、「タスク不整合バイアス」が生じ得ると主張している。具体的には、これらの特徴は、MLLMの多様な空間推論ニーズではなく、3D基盤モデルの事前学習目的へとドリフトしてしまう。
  • GeoAlignを提案し、階層的な幾何学的特徴バンクを構築する。そして、MLLM自身の視覚トークンを内容に応じたクエリとして用い、レイヤーごとの疎なルーティングと、画像パッチごとに適切な幾何学的特徴を動的に取得することで実現する。
  • VSI-Bench、ScanQA、SQA3Dに対する実験では、提案手法がマルチモーダルな空間推論性能を向上させることが示されており、コンパクトな4Bモデルで最先端の結果に到達している。
  • 本手法は、より大きな既存のMLLMを上回ることができ、空間推論タスクでは、モデル規模よりも、より良い幾何学的アラインメント(動的な多層集約によるもの)の方が重要である可能性を示唆している。
  • 全体として、GeoAlignは幾何学的特徴注入を、一度きりの特徴抽出ステップではなく、適応的なアラインメント問題として捉え直す。推論時に不均質な空間要求により適合することを目指している。

Abstract

マルチモーダル大規模言語モデル(MLLM) はさまざまな視覚タスクで目覚ましい性能を示している一方、空間推論ではいまだに困難を抱えています。近年の取り組みでは、3D基盤モデルからの幾何学的特徴を注入することでこの問題を緩和していますが、静的な単一層の抽出に依存しています。私たちは、このようなアプローチがタスク不一致のバイアスを生むことを見出しました。すなわち、幾何学的特徴は自然に3D事前学習の目的へ向かって進化するため、MLLMが必要とする異種の空間的要求と矛盾する可能性があります。その結果、いかなる単一層も本質的に不十分になり得ます。これを解決するために、実際の要求に合わせて再整列するために、複数層の幾何学的特徴を動的に集約する新しい枠組み GeoAlign を提案します。GeoAlign は階層的な幾何学的特徴バンクを構築し、MLLMの元の視覚トークンをコンテンツに応じたクエリとして用いることで、層ごとのスパース・ルーティングを行います。これにより、各パッチに対して適切な幾何学的特徴を適応的に取得します。VSI-Bench、ScanQA、および SQA3D に対する大規模な実験により、コンパクトな 4B モデルであっても、既存のより大きな MLLM を上回ることさえあるなど、最先端の性能を効果的に達成できることを示します。