強力な教師は重要:視覚的優先度強化を伴うテキスト誘導マルチビュー知識蒸留
arXiv cs.CV / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、学生の学習目的を変更するだけでなく、教師の知識の質そのものを向上させることで知識蒸留を改善することを目的とした、テキスト誘導マルチビュー知識蒸留(TMKD)を提案する。
- TMKDは、CLIPに基づくテキスト教師と視覚教師という二つのモダリティの教師を用い、意味重み付けと適応的特徴融合により、より豊かな教師信号を生成する。
- 視覚教師は、多視点入力に加えて、エッジや高周波特徴といった視覚的事前知識で強化される一方で、テキスト教師は、学生の特徴をどのように融合するかを導くために、事前知識に基づいたプロンプトを用いる。
- この手法ではさらに、学生の意味的知識を強化するために、視覚言語の対照(contrastive)正則化を追加する。
- 5つのベンチマークにまたがる実験により、既存の蒸留アプローチに対して最大4.49%の一貫した性能向上が示されており、著者らは再現用コードも提供している。