Lessでより良く:条件付きおよび劣化マスク自己符号化器による異質マルチモーダル画像の共同事前学習

arXiv cs.CV / 2026/4/21

📰 ニュースModels & Research

要点

  • この論文は、高解像度の光学画像とSAR画像(合成開口レーダー)の異質性がもたらす難しさに取り組み、「異質性–解像度パラドックス」によって剛体的なアライメントを使うと負の転移が起きやすい点を焦点化しています。
  • CoDe-MAEという「より良いシナジーを、より少ないアライメントで」実現する手法を提案し、抑制による性能低下と汚染による性能低下の両極端を避ける複数の要素を組み合わせます。
  • 光学主導の知識蒸留(OKD)により、SARのスペックルやノイズをよりクリーンな意味的マニフォールドへ写像することで頑健性を高めます。
  • 条件付きコントラスト学習(CCL)は、勾配バッファリング機構を用いて共有する合意部分だけを整合させつつ、モダリティ間の物理的に異なる特徴を保つようにします。
  • クロスモーダル劣化再構成(CDR)では、対応のないスペクトルの疑似特徴を意図的に取り除き、学習対象をより適切な問題設定に寄せて構造的不変量を捉えることを狙います;1Mサンプルで事前学習した結果、データ効率が高く、より大規模にスケールした基盤モデルに対して多様な下流タスクで新たなSOTAを達成したと主張しています。

要旨: 非常に異質なモダリティにまたがって頑健な表現を学習することは、マルチモーダル視覚における根本的な課題であり続けています。この課題の重要かつ深い具体例として、高解像度(HR)な共同の光学および合成開口レーダー(SAR)の事前学習は、モダリティ間の相乗効果を求め、単一ソースの表現を相互に高めることを狙います。しかし、その可能性は「異質性—解像度パラドックス」によって深刻に阻害されています。より細かな空間スケールは、複雑なレーダ幾何と相同性のない光学テクスチャとの間の物理的な相違を劇的に増幅します。その結果、中解像度向けの剛体なアラインメント(整列)パラダイムをHRシナリオに移植すると、同等性を強制するために特徴が著しく抑制されるか、あるいは極端なエピステミック(認識論的)不確実性に駆動されて特徴が汚染されるかのいずれかが発生します。これら2つの極端はいずれも、避けられない形で表現の劣化と負の転移を招きます。このボトルネックを克服するために、私たちはCoDe-MAEを提案します。これは「アラインメントをより少なくして、より良い相乗効果を」という哲学を先駆けて示すものです。まず、光学アンカーによる知識蒸留(OKD)は、SARのスペックルノイズを、純粋な意味論的マニフォールドへ写像することで暗黙に正則化します。これに基づき、条件付き対照学習(CCL)は、勾配バッファリング機構を用いて、共有されるコンセンサスを整列させつつ、発散する物理的シグネチャを安全に保持します。同時に、クロスモーダル劣化再構成(CDR)は、相同性のないスペクトル上の擬似特徴を意図的に取り除き、そもそも解が定まりにくい(ill-posed)写像を切り詰めることで、真の構造不変量を捉えます。広範な分析により、私たちの理論的主張が検証されます。100万サンプルで事前学習したCoDe-MAEは、驚くべきデータ効率を示し、表現の劣化を確実に防ぎます。そして、多様な単一モーダルおよびバイモーダルの下流タスクにおいて、新しい最先端の性能を確立し、はるかに大規模なデータセットでスケールした基盤モデルを大きく上回ります。