要旨: 事前学習済み言語モデル(LM)を視覚言語モデル(VLM)へ適応させることは、マルチモーダル適応の際に導入される表現シフトやクロスモーダル干渉によって、そのLM本来の言語能力を低下させ得ます。このような損失は、標準的な目的関数を用いた、ターゲットに定めたタスク固有のファインチューニングによっても回復が難しいです。従来の回復アプローチでは、モダリティ固有の部分空間を維持または分離する中間整合層として機能する追加モジュールが導入されることが一般的であり、その結果として、アーキテクチャの複雑化、推論時のパラメータ増加、モデルや設定間での柔軟性の制約につながります。我々は、元の凍結LMを教師として利用することで言語能力を復元する、アダプタ不要の蒸留手法「LinguDistill」を提案します。両者のアーキテクチャを変更することなく、レイヤごとのKVキャッシュ共有を導入することで、視覚条件付き教師による監督を可能にするという主要な課題を克服します。これにより、教師モデルはいずれのモデルの構造も変更せずに、学生のマルチモーダル表現にアクセスできるようになります。続いて、言語集約データ上で教師の強力な言語シグナルを選択的に蒸留することで、言語能力を回復しつつ、マルチモーダル課題における学生の視覚的な基底付け(visual grounding)を保持します。その結果、LinguDistillは言語および知識ベンチマークで失われた性能の約\sim10%を回復しながら、視覚寄りの課題では同等の性能を維持します。以上の知見は、追加モジュールなしで言語能力が回復できることを示しており、マルチモーダルモデルにおけるモダリティ固有の劣化に対する効率的で実用的な解決策を提供します。
LinguDistill:選択的クロスモーダル蒸留により視覚-言語モデルで言語能力を回復する
arXiv cs.CV / 2026/4/2
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、事前学習済み言語モデル(LM)を視覚言語モデル(VLM)へ適応させる際に、表現のシフトやクロスモーダル干渉によって、LM本来の言語能力が大きく劣化し得ることを指摘している。
- 提案手法であるLinguDistillは、追加のアーキテクチャモジュールや推論時のパラメータを増やさずに、元の凍結LMを教師として用いるアダプタ不要の蒸留により、言語能力を回復する。
- 視覚条件付きの学生が教師を意味のある形で監督できるようにするため、本手法では層ごとのKVキャッシュ共有を導入し、モデルのいずれのアーキテクチャも変更せずに、教師をマルチモーダル表現にさらせるようにする。
- 著者らは、言語への重点が大きいデータに対して、言語に焦点を当てた監督を選択的に蒸留し、言語/知識の性能を回復しつつ、マルチモーダル課題における強い視覚的基盤(visual grounding)を維持する。
- 実験結果では、言語および知識ベンチマークで失われた性能の約~10%を回復しつつ、視覚中心の課題においては同等の性能を維持できることが報告され、モダリティ固有の劣化を緩和するための実用的な道筋を示している。




