要約: Vision-Language Models (VLMs) は、非線形エンコーダが埋め込みを表現空間の高度に集中した領域へ写像するという特有の「円錐効果」を示し、モダリティ間の分離を生み出すモダリティギャップとして知られる現象に寄与します。
この現象は広く観察されてきましたが、監督付きマルチモーダル学習、特に医療分野におけるその実用的な影響は依然として不明です。 In this work, we introduce a lightweight post-hoc mechanism that keeps pretrained VLM encoders frozen while continuously controlling cross-modal separation through a single hyperparameter λ. This enables systematic analysis of how the modality gap affects downstream multimodal performance without expensive retraining. We evaluate generalist (CLIP, SigLIP) and medically specialized (BioMedCLIP, MedSigLIP) models across diverse medical and natural datasets in a supervised multimodal settings. Results consistently show that reducing excessive modality gap improves downstream performance, with medical datasets exhibiting stronger sensitivity to gap modulation; however, fully collapsing the gap is not always optimal, and intermediate, task-dependent separation yields the best results. These findings position the modality gap as a tunable property of multimodal representations rather than a quantity that should be universally minimized.
医療分野のビジョン-言語埋め込みにおける円錐効果とモダリティ間ギャップ
arXiv cs.LG / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、医療分野のビジョン-言語埋め込みにおける円錐効果とモダリティ間ギャップを分析し、事前学習済みエンコーダを凍結しつつ、単一のハイパーパラメータ(lambda)でクロスモーダル分離を共同制御する軽量な事後処理機構を導入する。
- このアプローチは、再学習コストをかけずに、モダリティギャップが下流のマルチモーダル性能に与える影響を体系的に研究できるようにする。評価対象は、一般用途モデル(CLIP、SigLIP)と医療特化モデル(BioMedCLIP、MedSigLIP)の双方で行われた。
- 結果は、過度なモダリティギャップを減らすことは一般に性能を向上させることを示しており、医療データセットはギャップの調整に対してより強い感度を示すが、ギャップの完全な縮小が普遍的に最適とは限らず、中間的な分離がしばしば最良の結果をもたらす。
- 本研究の発見は、モダリティ間ギャップをマルチモーダル表現の可調整な特性として位置づけ、普遍的な最小化を追求するのではなく、タスクおよびドメイン固有の調整を導くものである。

