MEDiC:CLIPからの蒸留に対する多目的探索
arXiv cs.CV / 2026/4/1
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- MEDiCは、新しい蒸留フレームワークであり、凍結したCLIPエンコーダからのパッチレベルのトークン蒸留、グローバルなCLSアラインメント、そして軽量デコーダによるピクセル再構成を組み合わせることで、ピクセル空間と潜在特徴空間の両方におけるマスク画像モデリングを統一します。
- 実験の結果、3つの目的は相補的であり、全てを組み合わせた場合に、ViT-BaseでImageNet-1KのkNN精度が73.9%に達することが示されています。
- 本論文では、階層的クラスタリングと相対位置バイアスを用いた進化的マスキング戦略を調査していますが、進化的マスキングは、教師ガイド付き蒸留の性能を簡単なブロックマスキングより向上させないことを見出しています。これは、教師が内蔵している意味的な認識による可能性が高いと考えられます。
- スカラーの損失重み付けに対する高い感度が報告されており、損失重みに対する小さな摂動によってkNN精度が最大17ポイント低下し得ることが示されています。
- 著者らは、ViT-Baseで300エポック後の総合性能として、kNN精度73.9%およびファインチューニング精度85.1%を報告するとともに、設計空間の体系的な調査も行っています。




