Training a Student Expert via Semi-Supervised Foundation Model Distillation

arXiv cs.CV / 4/7/2026

📰 NewsIdeas & Deep AnalysisModels & Research

Key Points

  • 提案されたSSKD(Semi-Supervised Knowledge Distillation)は、限られたラベルと大量の未ラベルデータを用いて、重い視覚基盤モデルを小型の“学生エキスパート”へ圧縮する枠組みです。
  • 手法は3段階で、(1)対比的キャリブレーション付き自己学習によるドメイン適応、(2)教師から学生への知識移転を統一された多目的損失で行う蒸留、(3)疑似ラベル由来のバイアスを抑える学生の追加微調整を含みます。
  • インスタンス認識のピクセル単位対比損失を核に、マスクとクラススコアを統合して有益なネガティブを抽出し、インスタンス間のマージンを明確化することで教師・学生の埋め込み整合を高めます。
  • CityscapesとADE20Kのインスタンスセグメンテーションで、約11分の1サイズの学生がゼロショットの教師よりそれぞれ+11.9 AP/+8.6 AP改善し、既存のSSKD手法もベンチマーク上で上回ったと報告されています。

Abstract

Foundation models deliver strong perception but are often too computationally heavy to deploy, and adapting them typically requires costly annotations. We introduce a semi-supervised knowledge distillation (SSKD) framework that compresses pre-trained vision foundation models (VFMs) into compact experts using limited labeled and abundant unlabeled data, and instantiate it for instance segmentation where per-pixel labels are particularly expensive. The framework unfolds in three stages: (1) domain adaptation of the VFM(s) via self-training with contrastive calibration, (2) knowledge transfer through a unified multi-objective loss, and (3) student refinement to mitigate residual pseudo-label bias. Central to our approach is an instance-aware pixel-wise contrastive loss that fuses mask and class scores to extract informative negatives and enforce clear inter-instance margins. By maintaining this contrastive signal across both adaptation and distillation, we align teacher and student embeddings and more effectively leverage unlabeled images. On Cityscapes and ADE20K, our \approx 11\times smaller student improves over its zero-shot VFM teacher(s) by +11.9 and +8.6 AP, surpasses adapted teacher(s) by +3.4 and +1.5 AP, and outperforms state-of-the-art SSKD methods on benchmarks.