広告

妥協の幾何学:制御可能なモダリティ整合により生成能力を解き放つ

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、CLIPのような視覚言語モデル(VLM)における「モダリティ・ギャップ」を分析し、それが2つの成分、すなわちCentroid Gap(重心ギャップ)とDistribution Gap(分布ギャップ)から成ることを示す。
  • 一般に用いられるRaw Gapではなく、Distribution Gapがクロスモーダル課題の品質を最も強く予測することを見出し、報告値のR²は0.986(対して0.691)。
  • これに対処するため、著者らはTPC-CMAというファインチューニング手法を提案する。これは、重心オフセットと分布の不一致の両方を明示的に低減し、安定した最適化のために3段階の勾配を意識した学習カリキュラムを用いる。
  • 実験では、クロスモーダル整合が大幅に改善することが報告されており、α_target=0.05において精度低下が最小のまま66.6%のモダリティ・ギャップ削減を達成する。さらに強い整合(α_target=0.5)では、クラスタリングのARIやキャプション生成のCIDErの向上が得られる。
  • 著者らは、採択後にコードと事前学習済みモデルを公開する予定である。

Abstract

CLIPのような視覚言語モデル(VLM)は、画像とテキストのための共有埋め込み空間を学習しますが、その表現は幾何学的に分離されたまま残ります。これはモダリティギャップとして知られる現象です。このギャップは、キャプション生成や共同クラスタリングのような、モダリティ間の相互交換可能性を必要とするタスクを制限します。既存のポストプロセッシング手法は、クロスモーダルな適合性を部分的に改善できます。しかし本研究では、幾何学的分析を通じて、それらが主にグローバルな重心オフセットを低減する一方で、基盤となる分布の不一致はそのまま残していることを示します。私たちはモダリティギャップを「重心ギャップ」と「分布ギャップ」に分解し、「分布ギャップ」がクロスモーダル・タスクの品質を真に予測することを示します(R^2 = 0.986)。一方、一般に用いられる「Raw Gap(生のギャップ)」は誤解を招くものです(R^2 = 0.691)。この観察に動機づけられて、TPC-CMA(Three-Phase Curriculum for Cross-Modal Alignment:クロスモーダル整合のための三段階カリキュラム)を提案します。これは、両方の成分を明示的に低減する微調整(fine-tuning)フレームワークです。提案するCMAは、重心オフセットを共同で緩和し、さらに分布の構造を再形成します。加えて、勾配を考慮したスケジューリングを伴う三段階カリキュラムにより、訓練中に段階的に整合を導入し、安定した最適化を可能にします。実験の結果、私たちの手法はクロスモーダル整合を大幅に改善することが示されました。alpha_{text{target}}{=}0.05では、精度の低下はわずか4.84 un%でありながら、モダリティギャップは66.6 un%低減されます。さらに強い整合(alpha_{text{target}}{=}0.5)では、ギャップが82.3 un%低減され、クラスタリングARIは0.318から0.516へ向上し、キャプションCIDErは元のモデルに対して57.1 un%増加します。受理され次第、コードと事前学習済みモデルを公開します。

広告