Abstract
基盤モデルは優れた知覚性能を提供しますが、しばしば計算量が大きすぎて実運用への展開が困難であり、適応には通常コストのかかる注釈が必要です。そこで、限られたラベル付きデータと豊富なラベルなしデータを用いて、事前学習済みの視覚基盤モデル(VFM)をコンパクトなエキスパートへ圧縮する、半教師あり知識蒸留(SSKD)フレームワークを提案します。そして、とりわけピクセル単位のラベルが高価なインスタンスセグメンテーションに対して、この枠組みを具体化します。提案フレームワークは3つの段階で構成されます:(1)コントラストに基づくキャリブレーションによる自己学習を通じたVFM(複数)のドメイン適応、(2)統一された多目的損失による知識伝達、(3)残存する擬似ラベルのバイアスを緩和するための学生モデルの微調整です。私たちのアプローチの中核は、マスクとクラスのスコアを融合して有益なネガティブを抽出し、明確なインスタンス間マージンを強制する、インスタンス認識のピクセル単位コントラスト損失です。適応と蒸留の両方においてこのコントラスト信号を維持することで、教師と学生の埋め込みを整合させ、ラベルなし画像をより効果的に活用できます。CityscapesおよびADE20Kにおいて、約11 imes小型の学生モデルは、ゼロショットのVFM教師(複数)に対してそれぞれ+11.9および+8.6 AP向上し、適応済みの教師(複数)をそれぞれ+3.4および+1.5 AP上回ります。さらに、ベンチマーク上で最先端のSSKD手法よりも優れています。