Le MuMo JEPA:学習可能なフュージョントークンによるマルチモーダル自己教師あり表現学習

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Le MuMo JEPAは、RGB画像と整合した補助モダリティ(特にカメラ整合のLiDAR深度)から、統一された埋め込み表現を学習するマルチモーダル自己教師あり表現学習フレームワークとして導入されます。
  • 本手法はLeJEPAを拡張し、共有トランスフォーマ内に潜在ボトルネックを形成する学習可能なフュージョントークンを追加します。さらに、最初のクロスモーダル注意層の後にモダリティ固有トークンを削除する効率的な「pruned fusion(剪定されたフュージョン)」戦略を採用しています。
  • 下流タスクにおける表現品質を向上させるため、結合したマルチモーダルCLS埋め込みに対してSIGReg正則化を適用します。
  • WaymoおよびnuScenesでの運転シミュレーション実験により、Le MuMo JEPAは、スクラッチから学習するマルチモーダル基線に対して、性能と効率のバランス面で強い結果を示します。CenterNetの検出と高密度深度推定を改善しつつ、セグメンテーションでも競争力を維持しています。
  • 本フレームワークはTeledyne FLIR ADASベンチマークにも良好に転移し、研究内で最良の結果を達成します。特に、Waymoで初期化した微調整の後に顕著で、計算量/メモリ使用量/学習時間を削減しながら性能を高めています。

要旨: 自己教師あり学習は、人手による注釈なしで視覚的表現を学習するための強力なパラダイムとして登場してきましたが、それでも多くの手法は単一モダリティで動作するため、異種センサから得られる補完的な構造を見落としています。私たちは、RGB画像と整列された付随モダリティから統一的な表現を学習する自己教師ありフレームワークである Le MuMo JEPA を提案します。私たちの自動運転実験では、第2のモダリティはカメラに整列した LiDAR の深度です。また、RGB-熱画像による学習と、Teledyne FLIR ADAS ベンチマークでの転移も評価します。提案手法は、共有トランスフォーマ内で、モダリティ固有のパッチ茎(stem)の間に潜在ボトルネックとして機能する融合トークンを学習することで、LeJEPA をマルチモーダル設定へ拡張します。デフォルトのモデルでは、削減(pruned)された融合戦略を採用します。最初のモダリティ間注意(cross-modal attention)層の後、モダリティ固有トークンを削除(drop)し、共有された融合トークン・グリッドへ効率的な潜在ボトルネックとしてモダリティ間の情報を強制的に投入します。その後、スケッチ付き等方ガウス正則化(Sketched Isotropic Gaussian Regularization: SIGReg)を、共同マルチモーダルの CLS 埋め込みに適用します。Waymo では、Le MuMo JEPA は、ゼロから学習(from-scratch)のマルチモーダル基線の中で、下流のパッチプローブにおける性能と効率の最も強いトレードオフを示し、CenterNet の検出と密な深度を改善しつつ、セグメンテーションでも競争力を維持します。nuScenes でのゼロから学習では、Le MuMo JEPA は最も強いモデルであり、また FLIR においても最良の結果を与えます。特に、Waymo を初期化した微調整の後で顕著です。さらに、本研究における総合的な精度と効率のバランスにおいても、計算量・メモリ・推定学習時間を大幅に低減しながら、最良を維持します。