モダリティ・ギャップはバグか機能か？頑健性の観点から

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、CLIPスタイルのVLMなどのマルチモーダルコントラスト学習モデルに「モダリティ・ギャップ」が生じる理由を分析する。これは、共有空間において画像とテキストの埋め込みが強く分離してしまう現象である。
特定の条件のもとでは、コントラスト損失を最小化すると、モダリティ埋め込みに直交する大域的なギャップベクトルが得られることを示す。
著者らは、このモダリティ・ギャップを頑健性と結び付け、ギャップを減らしてもクリーン（非擾乱）精度には影響しない一方で、埋め込みの摂動に対する出力の安定性が増すことを見出す。
実験により、事後処理として単純に一方のモダリティの埋め込みを、他方のモダリティの平均へ移動する調整を行うだけで、多くの実世界のVLMにおいてクリーン性能を損なわずに頑健性が大幅に改善できることが示される。

アブストラクト: 多くの現代的なマルチモーダルモデル（例: CLIP）は、2つのモダリティが整列している埋め込み空間を目指します。やや意外なことに、ほぼすべての既存モデルは強いモダリティギャップを示します。すなわち、共有する埋め込み空間において、画像の分布はテキストの分布からうまく分離されています。この話題に関する一連の近年の論文にもかかわらず、そのギャップがなぜ存在するのか、また事後処理でギャップを埋めることで下流タスクの性能が向上するのかは、いまだ明確ではありません。本論文では、ある条件のもとでコントラスト損失を最小化すると、2つのモダリティがそれぞれの埋め込みに直交する大域的なギャップベクトルによって隔てられた表現が得られることを示します。さらに、これらの条件のもとではモダリティギャップがロバスト性と単調に関係していること、すなわちギャップを小さくしてもモデルのクリーン精度は変わらない一方で、埋め込みが摂動されたときにモデルの出力が変わってしまう可能性が低くなることを示します。実験の結果、多くの現実のVLMに対して、いずれか一方のモダリティを他方のモダリティの平均へ近づけるという単純な事後処理ステップによって、クリーン精度の損失なしにロバスト性を大幅に高められることを確認しました。