IsoCLIP: 効率的なイントラモーダル整列のための CLIP プロジェクターの分解

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • IsoCLIP は、CLIP におけるイントラモーダルの不整合を、共有埋め込み空間への写像における画像プロジェクターとテキストプロジェクターの役割に焦点を当てて調査する。
  • 著者らは、訓練中にモダリティ間を整合させる役割を果たすモダリティ間オペレーターと、モダリティ内の正規化のみを強制するモダリティ内オペレーターを区別する。
  • スペクトル解析は、2つのモダリティが良好に整列する約等方性のサブ空間と、各モダリティに特有の異方性方向が現れることを明らかにする。
  • 整列したサブスペースはプロジェクターの重みから直接導出可能であることを示し、異方性方向を取り除くとイントラモーダル整列が改善される。
  • 訓練を必要としない手法は、イントラモーダルの不整合を低減し、レイテンシを低下させ、複数の CLIP に類似した事前学習済みモデルにおいて既存手法を上回る。コードは、提供された GitHub リンクで公開されている。

要約: CLIP のような Vision-Language モデルは、視覚モードとテキストモードの両方を含むモーダル間タスクに広く用いられています。
しかし、個々のモダリティ・エンコーダを、画像間検索のような本質的にモーダル内タスクに適用すると、モーダル内の整合性のずれによって性能が低下します。
本論文では、投影前の画像埋め込みとテキスト埋め込みを共有埋め込み空間へ写像するプロジェクターの役割に焦点を当て、CLIP におけるモーダル内のミスアライメントを研究します。
投影後の特徴量に適用されるコサイン類似度の形と、それが対照的な CLIP 損失とどのように相互作用するかを分析することにより、訓練中に二つのモダルを整列させる責任を担うインターモーダル演算子が存在する一方で、モーダル内の正規化のみを強制するがモーダル内の整合性を促進することは何もしない第二のモーダル内演算子が存在することを示します。
インターモーダル演算子のスペクトル解析を通じて、両モーダルがよく整列している概ね等方的な部分空間と、各モーダルに特有の異方的な方向を同定します。
この整列済み部分空間はプロジェクターのウェイトから直接得られること、そして異方的な方向を除去することがモーダル内の整合を改善することを示します。
モーダル内検索と分類のベンチマークにおける我々の実験は、訓練不要の手法がモーダル内のミスアライメントを低減し、待機時間を大幅に低下させ、複数の事前学習済みの CLIP 類似モデルにおいて既存の手法を上回ることを示しています。
コードは以下で公開されています: https://github.com/simomagi/IsoCLIP.