画像から言葉へ:ブラックボックス教師からの言語モデルへの効率的なクロスモーダル知識蒸留

arXiv cs.CL / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ARMADAは、教師を変更せず、費用の高いマルチモーダル事前訓練を必要とせず、大規模な視覚言語モデルから言語専用モデルへ知識を転移するクロスモーダル知識蒸留フレームワークである。
  • ブラックボックスの視覚言語モデルからの知識蒸留をサポートし、内部アクセスがなくても独自または入手不能な教師を利用できるようにする。
  • 著者らはARMADAを、12の自然言語理解タスク、8つの複雑な生成推論タスク、5つの指示調整タスクで評価し、DeBERTa-v2-1.4B、OPT-1.3B、LLaMA-3B/7B/8Bなどの大規模モデルで一貫した性能向上を示している。
  • 言語理解タスクで最大3.4%の改善、生成推論で2.6%のブーストを達成しており、手法の効率とスケーラビリティを強調している。
  • 本研究は、従来のKDパラダイムに挑戦し、視覚と言語のモデルは直接的なテキスト理解を欠く場合でも、適切に蒸留すれば言語モデルを有意に向上させ得ることを示している。マルチモーダル前訓練や教師モデルのファインチューニングを必要としない。
知識蒸留(KD)手法は、大規模な事前学習済み言語モデルを小型モデルへ圧縮し、性能を大幅に落とすことなく計算効率を確保するうえで極めて重要である。従来のKD技術は、教師(ソース)と生徒(ターゲット)モデルとのモダリティの同質性を前提とする。一方、既存のマルチモーダル知識蒸留法は、教師モデルのモダリティ特有の事前学習を要求するため、ほとんどの場合計算上実行不可能である。本論文では、ARMADAを導入する。ARMADAは、大規模な視覚言語モデル(ブラックボックスモデルを含む)から言語のみのモデルへ知識を転送するよう設計された、効率的なクロスモーダル知識蒸留フレームワークである。マルチモーダルな教師の内部構造に依存したり、計算コストの高い事前学習を必要とする従来のKD技術とは異なり、ARMADAは新規の整合手法を活用して、教師モデルを変更することなく知識を蒸留し、効率性とスケーラビリティを確保する。私たちは、12の自然言語理解タスク、8つの複雑な生成推論タスク、5つの指示調整タスクでARMADAを実証的に検証し、DeBERTa-v2-1.4B、OPT-1.3B、LLaMA-3B/7B/8Bなどの大規模モデルで一貫した性能向上を示している。ARMADAは、言語理解タスクで最大3.4%の改善、生成推論で2.6%のブーストを達成し、高価なマルチモーダル前訓練や教師モデルのファインチューニングを必要とせず、効率とスケーラビリティを実現している。我々の知見は、従来の知識蒸留パラダイムに挑戦するものであり、視覚と言語のモデルは、直接的なテキスト理解を欠く場合でも、適切に蒸留すれば言語モデルを大幅に強化し得ることを示している。