要旨: 視覚言語モデル(VLMs)は、視覚エンコーダを統合することで、伝統的なLLMに視覚能力を付与してきました。近年、視覚エンコーダとLLMのさまざまな組み合わせが検討されてきたものの、VLMのアラインメントにおいて、どのような視覚エンコーダが適しているのかを示す原理的な理解は依然として欠けています。本論文では、多様な出所から収集した19の事前学習済み視覚エンコーダを厳選したコレクションに対する、包括的な実験を通じて、この問いを体系的に調査します。まず、最大のサイズのエンコーダや、最も高いゼロショット精度のエンコーダを選ぶといった一般的な手法は、最適なモデルを特定することに一貫して失敗することを示します。実際、これらの指標はVLMの性能との相関が弱〜中程度でしかありません。この興味深い発見は、根本的な問いを投げかけます。すなわち、VLMにおいて重要なのは視覚エンコーダのどの要因なのか、ということです。包括的な分析により、従来見落とされていた役割として、モダリティ間における構造的類似性が視覚エンコーダ選定において重要であることを特定します。ここでは、この類似性を代理指標としてGromov-Wasserstein距離を用いて測定します。理論的な観点からは、モダリティ間マッピングの学習可能性がGromov-Wasserstein距離と(証明可能な形で)結び付けられることを示します。60回超の完全なVLM学習実行に対する実証的検証では、提案する「推論のみ」の指標が、他のモデル選択戦略よりも有意に良好であり、最終的なVLM性能との相関がはるかに強いことが示されます。これにより、学習を完了する前にVLM性能を効率的かつ効果的に予測できるようになります。
Gromov-Wasserstein距離の観点からVLMにおけるモデル選択を再考する
arXiv cs.CV / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Vision-Language Models(VLM)におけるビジョンエンコーダ選択について、視覚と自然言語の連携方法は多く研究されている一方で、体系的な理解が欠けていると論じています。
- 19の事前学習済みビジョンエンコーダでの実験により、一般的なヒューリスティック(エンコーダの最大サイズやゼロショット精度の高さ)は、生成されるVLM性能との相関が弱い〜中程度にとどまることを示します。
- 著者らは、モダリティ間の構造的類似性が重要な要因であるにもかかわらず見落とされてきた点であり、これをGromov-Wasserstein距離で定量化できると提案します。
- 理論的には、モダリティ間の写像の学習可能性がGromov-Wasserstein距離と関連づけられることを示し、60回以上のフルVLM学習ランによる実証で、推論のみで使える指標が他のモデル選択手法より最終性能をより強く予測できることが確認されます。
- この手法により、フル学習の前にVLMの成否を効率的に予測でき、モデル選択のコストを削減できます。




