妥協の幾何学：制御可能なモダリティ整合により生成能力を解き放つ

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、CLIPのような視覚言語モデル（VLM）における「モダリティ・ギャップ」を分析し、それが2つの成分、すなわちCentroid Gap（重心ギャップ）とDistribution Gap（分布ギャップ）から成ることを示す。
一般に用いられるRaw Gapではなく、Distribution Gapがクロスモーダル課題の品質を最も強く予測することを見出し、報告値のR²は0.986（対して0.691）。
これに対処するため、著者らはTPC-CMAというファインチューニング手法を提案する。これは、重心オフセットと分布の不一致の両方を明示的に低減し、安定した最適化のために3段階の勾配を意識した学習カリキュラムを用いる。
実験では、クロスモーダル整合が大幅に改善することが報告されており、α_target=0.05において精度低下が最小のまま66.6%のモダリティ・ギャップ削減を達成する。さらに強い整合（α_target=0.5）では、クラスタリングのARIやキャプション生成のCIDErの向上が得られる。
著者らは、採択後にコードと事前学習済みモデルを公開する予定である。

Abstract

CLIPのような視覚言語モデル（VLM）は、画像とテキストのための共有埋め込み空間を学習しますが、その表現は幾何学的に分離されたまま残ります。これはモダリティギャップとして知られる現象です。このギャップは、キャプション生成や共同クラスタリングのような、モダリティ間の相互交換可能性を必要とするタスクを制限します。既存のポストプロセッシング手法は、クロスモーダルな適合性を部分的に改善できます。しかし本研究では、幾何学的分析を通じて、それらが主にグローバルな重心オフセットを低減する一方で、基盤となる分布の不一致はそのまま残していることを示します。私たちはモダリティギャップを「重心ギャップ」と「分布ギャップ」に分解し、「分布ギャップ」がクロスモーダル・タスクの品質を真に予測することを示します（

R^2 = 0.986

）。一方、一般に用いられる「Raw Gap（生のギャップ）」は誤解を招くものです（

R^2 = 0.691

）。この観察に動機づけられて、TPC-CMA（Three-Phase Curriculum for Cross-Modal Alignment：クロスモーダル整合のための三段階カリキュラム）を提案します。これは、両方の成分を明示的に低減する微調整（fine-tuning）フレームワークです。提案するCMAは、重心オフセットを共同で緩和し、さらに分布の構造を再形成します。加えて、勾配を考慮したスケジューリングを伴う三段階カリキュラムにより、訓練中に段階的に整合を導入し、安定した最適化を可能にします。実験の結果、私たちの手法はクロスモーダル整合を大幅に改善することが示されました。

alpha_{text{target}}{=}0.05

では、精度の低下はわずか4.84 un%でありながら、モダリティギャップは66.6 un%低減されます。さらに強い整合（

alpha_{text{target}}{=}0.5

）では、ギャップが82.3 un%低減され、クラスタリングARIは0.318から0.516へ向上し、キャプションCIDErは元のモデルに対して57.1 un%増加します。受理され次第、コードと事前学習済みモデルを公開します。

StrongSORT: DeepSORTが強くなって帰ってきた！アップグレードされた追尾モデル！

AI-SCHOLAR

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

日経XTECH

流出したコードからClaude Codeの仕組みをすべて解析し知られざる機能を見やすくまとめた「Claude Code Unpacked」、未公開機能などをソースコードから直接マッピング

GIGAZINE

【徹底解説】クロスエージェントメモリとは？AIがツールとセッションを超えて文脈を共有する仕組み

Zenn

遺産であるCOBOLを現代化し、その正確性を自ら証明するAIを開発した話

Zenn

妥協の幾何学：制御可能なモダリティ整合により生成能力を解き放つ

要点

Abstract

関連記事

StrongSORT: DeepSORTが強くなって帰ってきた！アップグレードされた追尾モデル！

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

流出したコードからClaude Codeの仕組みをすべて解析し知られざる機能を見やすくまとめた「Claude Code Unpacked」、未公開機能などをソースコードから直接マッピング

【徹底解説】クロスエージェントメモリとは？AIがツールとセッションを超えて文脈を共有する仕組み

遺産であるCOBOLを現代化し、その正確性を自ら証明するAIを開発した話

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer