GAP-MLLM: マルチモーダル大規模言語モデルにおける3D空間知覚を活性化する幾何整合事前学習

arXiv cs.CV / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

GAP-MLLMは、画像のみの入力の制約に対処するため、マルチモーダルLLMにおける3D幾何表現を活性化する幾何整合事前学習を提案します。
著者らは、3D知覚における残るギャップは、幾何的事前知識の欠如ではなく、訓練パラダイムの不整合に起因すると主張しています。
視覚プロンプトを用いた共同タスクを導入し、幾何認識を強化するため、MLLMに疎な点群マップと意味ラベルを併せて予測させる共同タスクを導入します。
トークンレベルのゲーティング機構を備えた多層のプログレッシブ・フュージョンモジュールを含み、意味推論を抑制することなく幾何的先行情報を適応的に統合します。
実験では、幾何特徴の統合が改善され、3Dビジュアルグラウンディング、3D密集キャプショニング、および3Dビデオ物体検出の性能が向上することが示されました。

要約: マルチモーダル大規模言語モデル（MLLMs）は卓越した意味推論を示す一方で、純粋なRGB入力に限定されると3D空間認識には苦戦する。
3D再構成モデルからの暗黙の幾何的事前知識を活用しているにもかかわらず、画像ベースの手法は明示的な3Dデータを用いる手法と比較してなお顕著な性能差を示している。
このギャップは不十分な幾何的事前知識の不足によるものではなく、学習パラダイムの齟齬に起因すると主張する。テキスト中心のファインチューニングはMLLM内の幾何表現を活性化できない。
既存のアプローチは通常、素朴な特徴結合に頼り、幾何特化の監視なしに下流タスクを直接最適化するため、構造的活用が最適化されない。
この制限に対処するため、幾何整合な事前学習パラダイムであるGAP-MLLMを提案する。下流適応の前に構造的知覚を明示的に活性化する。
具体的には、視覚的プロンプトを用いた共同タスクを導入し、MLLMsに疎な点マップと意味ラベルを同時に予測させ、幾何意識を強制する。
さらに、トークンレベルのゲーティング機構を備えた階層的な漸進的融合モジュールを設計し、意味推論を抑制することなく幾何的事前知識を適応的に統合できるようにする。
広範な実験の結果、GAP-MLLMは幾何特徴の融合を著しく高め、3Dビジュアルグラウンディング、3D密集キャプショニング、3D動画物体検出タスク全般で一貫して性能を向上させることを示した。

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

note

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日経XTECH

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

Dev.to

GANを用いたデータ拡張

Dev.to

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

Dev.to

GAP-MLLM: マルチモーダル大規模言語モデルにおける3D空間知覚を活性化する幾何整合事前学習

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

GANを用いたデータ拡張

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

GANを用いたデータ拡張

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ