データセット蒸留を再考:ソフトラベルに関する厳しい現実

arXiv cs.LG / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 新しい証拠では、ソフトラベルを用いた下流モデル学習において、単純なランダム部分集合がデータセット蒸留(DD)の最先端手法と同等の性能を示し得ることが明らかになり、「DDの品質改善が常に効く」という前提が揺らいでいます。
  • ソフトラベル(SL)、固定ソフトラベル(SL)、ハードラベル(HL)の各ラベル条件でのスケーラビリティ分析により、高品質コアセットはSLおよびSL+KDの両条件でランダム基準を明確に上回れず、さらにSL+KDでは固定計算量のもとで部分集合サイズや品質にかかわらずフルデータセットに近い性能が飽和することが分かりました。
  • これらの結果は、ソフトラベルに基づくモデル評価の一般的な慣行を疑問視しています。ハードラベル設定と異なり、ソフトラベル学習では部分集合の品質が評価にほとんど影響しないためです。
  • HL設定では、ImageNet-1Kでランダム基準を確実に上回るのはRDEDのみでしたが、それでも強力なコアセット手法に遅れる場合があり、容易なサンプルパッチへの過度な依存が原因だと述べています。
  • CAD-Pruneと、計算量に整合したDD手法CA2Dを提案し、計算量を考慮して最適な難易度のサンプルを選ぶことで、さまざまなIPC設定で既存のDD手法より高い性能を示すとしています。