Abstract
CLIPのような視覚言語モデル(VLM)は、画像とテキストのための共有埋め込み空間を学習しますが、その表現は幾何学的に分離されたまま残ります。これはモダリティギャップとして知られる現象です。このギャップは、キャプション生成や共同クラスタリングのような、モダリティ間の相互交換可能性を必要とするタスクを制限します。既存のポストプロセッシング手法は、クロスモーダルな適合性を部分的に改善できます。しかし本研究では、幾何学的分析を通じて、それらが主にグローバルな重心オフセットを低減する一方で、基盤となる分布の不一致はそのまま残していることを示します。私たちはモダリティギャップを「重心ギャップ」と「分布ギャップ」に分解し、「分布ギャップ」がクロスモーダル・タスクの品質を真に予測することを示します(R^2 = 0.986)。一方、一般に用いられる「Raw Gap(生のギャップ)」は誤解を招くものです(R^2 = 0.691)。この観察に動機づけられて、TPC-CMA(Three-Phase Curriculum for Cross-Modal Alignment:クロスモーダル整合のための三段階カリキュラム)を提案します。これは、両方の成分を明示的に低減する微調整(fine-tuning)フレームワークです。提案するCMAは、重心オフセットを共同で緩和し、さらに分布の構造を再形成します。加えて、勾配を考慮したスケジューリングを伴う三段階カリキュラムにより、訓練中に段階的に整合を導入し、安定した最適化を可能にします。実験の結果、私たちの手法はクロスモーダル整合を大幅に改善することが示されました。alpha_{text{target}}{=}0.05では、精度の低下はわずか4.84
un%でありながら、モダリティギャップは66.6
un%低減されます。さらに強い整合(alpha_{text{target}}{=}0.5)では、ギャップが82.3
un%低減され、クラスタリングARIは0.318から0.516へ向上し、キャプションCIDErは元のモデルに対して57.1
un%増加します。受理され次第、コードと事前学習済みモデルを公開します。