要約: マルチモーダル大規模言語モデル(MLLMs)は卓越した意味推論を示す一方で、純粋なRGB入力に限定されると3D空間認識には苦戦する。
3D再構成モデルからの暗黙の幾何的事前知識を活用しているにもかかわらず、画像ベースの手法は明示的な3Dデータを用いる手法と比較してなお顕著な性能差を示している。
このギャップは不十分な幾何的事前知識の不足によるものではなく、学習パラダイムの齟齬に起因すると主張する。テキスト中心のファインチューニングはMLLM内の幾何表現を活性化できない。
既存のアプローチは通常、素朴な特徴結合に頼り、幾何特化の監視なしに下流タスクを直接最適化するため、構造的活用が最適化されない。
この制限に対処するため、幾何整合な事前学習パラダイムであるGAP-MLLMを提案する。下流適応の前に構造的知覚を明示的に活性化する。
具体的には、視覚的プロンプトを用いた共同タスクを導入し、MLLMsに疎な点マップと意味ラベルを同時に予測させ、幾何意識を強制する。
さらに、トークンレベルのゲーティング機構を備えた階層的な漸進的融合モジュールを設計し、意味推論を抑制することなく幾何的事前知識を適応的に統合できるようにする。
広範な実験の結果、GAP-MLLMは幾何特徴の融合を著しく高め、3Dビジュアルグラウンディング、3D密集キャプショニング、3D動画物体検出タスク全般で一貫して性能を向上させることを示した。
GAP-MLLM: マルチモーダル大規模言語モデルにおける3D空間知覚を活性化する幾何整合事前学習
arXiv cs.CV / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- GAP-MLLMは、画像のみの入力の制約に対処するため、マルチモーダルLLMにおける3D幾何表現を活性化する幾何整合事前学習を提案します。
- 著者らは、3D知覚における残るギャップは、幾何的事前知識の欠如ではなく、訓練パラダイムの不整合に起因すると主張しています。
- 視覚プロンプトを用いた共同タスクを導入し、幾何認識を強化するため、MLLMに疎な点群マップと意味ラベルを併せて予測させる共同タスクを導入します。
- トークンレベルのゲーティング機構を備えた多層のプログレッシブ・フュージョンモジュールを含み、意味推論を抑制することなく幾何的先行情報を適応的に統合します。
- 実験では、幾何特徴の統合が改善され、3Dビジュアルグラウンディング、3D密集キャプショニング、および3Dビデオ物体検出の性能が向上することが示されました。
