概要: Vision-Language Models(VLMs)は、視覚と語言の共同理解において目覚ましい能力を示してきましたが、その大規模さは、リソースが制約された状況での導入において重大な課題となります。知識蒸留(Knowledge Distillation; KD)は、モデルサイズやデータ要件を増やさずにモデル能力を向上させる実行可能な手段を提供し、導入をより効率的にします。しかし、VLMにKDを適用することは、モダリティ固有の教師信号によって難しくなっています。VLMにおけるマルチモーダル知識は言語空間内で融合されるものの、現在の手法では各モダリティを個別に監督しており、マルチモーダルの整合を明示的に扱いません。その結果、マルチモーダル知識の転移が一貫しなくなります。これに対処するため、共有テキスト確率空間内で視覚—言語の知識転移を統一するビジュアル・スイッチ蒸留フレームワークであるSwitch-KDを提案します。Switch-KDは2つの主要コンポーネントから構成されます:(1)Visual-Switch Distillation(視覚スイッチ蒸留)。これは、生徒の視覚出力を教師の言語経路へ切り替えて、暗黙的な視覚知識転移のためのクロスモーダルな確率的参照を構築します;および(2)Dynamic Bi-directional Logits Difference(DBiLD)損失。これは、双方向の教師信号によって教師と生徒の分布的構造を保持しつつ、有益な確率領域を適応的に整合させます。Switch-KDに導かれることで、0.5BのTinyLLaVAは3Bの教師から豊富なマルチモーダル知識を効果的に蒸留でき、アーキテクチャの変更なしに、10個のマルチモーダル評価ベンチマークで平均3.6ポイントの改善を達成します。
Switch-KD:視覚スイッチによる視覚言語モデルの知識蒸留
arXiv cs.CV / 2026/4/17
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- この論文は、モデル規模やデータ量を増やさずに、リソース制約下でのデプロイを効率化することを目的とした視覚言語モデル(VLM)の知識蒸留フレームワーク「Switch-KD」を提案する。
- 既存の蒸留ではモダリティごとに個別に教師信号を与えるため、明示的なマルチモーダル整合が弱くなり、マルチモーダル知識の転移が不安定になり得ると指摘している。
- Switch-KDは「視覚スイッチ」機構により、学生の視覚出力を教師の言語経路へ切り替えて処理し、視覚知識の暗黙的な転移につながるクロスモーダルな確率参照を構成することで、知識転送を統一する。
- さらに、DBiLD損失として、動的に重要な確率領域を整合させつつ、双方向の教師付けにより教師・学生の分布構造を保つことを狙う。
- 実験では、3B教師から0.5BのTinyLLaVAを蒸留すると、アーキテクチャ変更なしで10のマルチモーダルベンチマークの平均で+3.6点の改善が得られた。




