半教師あり基盤モデル蒸留による学生エキスパートの訓練

arXiv cs.CV / 2026/4/7

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 提案されたSSKD(Semi-Supervised Knowledge Distillation)は、限られたラベルと大量の未ラベルデータを用いて、重い視覚基盤モデルを小型の“学生エキスパート”へ圧縮する枠組みです。
  • 手法は3段階で、(1)対比的キャリブレーション付き自己学習によるドメイン適応、(2)教師から学生への知識移転を統一された多目的損失で行う蒸留、(3)疑似ラベル由来のバイアスを抑える学生の追加微調整を含みます。
  • インスタンス認識のピクセル単位対比損失を核に、マスクとクラススコアを統合して有益なネガティブを抽出し、インスタンス間のマージンを明確化することで教師・学生の埋め込み整合を高めます。
  • CityscapesとADE20Kのインスタンスセグメンテーションで、約11分の1サイズの学生がゼロショットの教師よりそれぞれ+11.9 AP/+8.6 AP改善し、既存のSSKD手法もベンチマーク上で上回ったと報告されています。

Abstract

基盤モデルは優れた知覚性能を提供しますが、しばしば計算量が大きすぎて実運用への展開が困難であり、適応には通常コストのかかる注釈が必要です。そこで、限られたラベル付きデータと豊富なラベルなしデータを用いて、事前学習済みの視覚基盤モデル(VFM)をコンパクトなエキスパートへ圧縮する、半教師あり知識蒸留(SSKD)フレームワークを提案します。そして、とりわけピクセル単位のラベルが高価なインスタンスセグメンテーションに対して、この枠組みを具体化します。提案フレームワークは3つの段階で構成されます:(1)コントラストに基づくキャリブレーションによる自己学習を通じたVFM(複数)のドメイン適応、(2)統一された多目的損失による知識伝達、(3)残存する擬似ラベルのバイアスを緩和するための学生モデルの微調整です。私たちのアプローチの中核は、マスクとクラスのスコアを融合して有益なネガティブを抽出し、明確なインスタンス間マージンを強制する、インスタンス認識のピクセル単位コントラスト損失です。適応と蒸留の両方においてこのコントラスト信号を維持することで、教師と学生の埋め込みを整合させ、ラベルなし画像をより効果的に活用できます。CityscapesおよびADE20Kにおいて、約11 imes小型の学生モデルは、ゼロショットのVFM教師(複数)に対してそれぞれ+11.9および+8.6 AP向上し、適応済みの教師(複数)をそれぞれ+3.4および+1.5 AP上回ります。さらに、ベンチマーク上で最先端のSSKD手法よりも優れています。

半教師あり基盤モデル蒸留による学生エキスパートの訓練 | AI Navigate