広告

データセット蒸留のための学習可能性ガイド付き拡散(Learnability-Guided Diffusion)

arXiv cs.CV / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模データセットでの学習コストを、元のモデルの性能を保持する小さな合成データセットを作成するデータセット蒸留によって低減することを扱う。
  • 著者らは、従来の拡散ベースの蒸留手法は、多様性や平均的な学習ダイナミクスを最適化することに重点を置きつつ、蒸留されたサンプル同士の類似性を明示的に考慮しないため、冗長な学習信号を生成しがちだと主張する。
  • 著者らは、現在のモデルにとってその合成サンプルがどれだけ学習可能(learnable)かに基づいて合成サンプルを段階的に追加していく、学習可能性駆動のデータセット蒸留を提案する。
  • さらに、学習可能性ガイド付き拡散(LGD)を導入し、現在のモデルに対するサンプルのトレーニング有用性と、参照モデルに対する妥当性のバランスを取ることで、生成されたサンプルが意図したカリキュラムに整合するようにする。
  • 実験の結果、冗長性が39.1%削減され、性能が向上した。ImageNet-1K(60.1%)、ImageNette(87.2%)、ImageWoof(72.9%)で先端(state-of-the-art)の結果を報告しており、コードはプロジェクトページから公開されている。

要旨: 大規模なデータセットで機械学習モデルを訓練することは、費用がかかり時間も要します。データセット蒸留は、全データセットと同等の性能を達成できる小さな合成データセットを作成することで、この問題に対処します。近年の手法では、拡散モデルを用いて蒸留データを生成し、あるいは多様性を促進することで、または学習勾配を一致させることで対応しています。しかし、既存のアプローチでは、サンプルが互いに重複する情報を伝えてしまうことで、冗長な学習信号が生成されます。経験的には、蒸留データセットの互いに交わらない部分集合では、重複する信号が80〜90%にとどまることが示されています。この冗長性は、視覚的多様性や平均的な学習ダイナミクスを最適化する一方で、サンプル間の類似性を考慮しないことに起因しており、その結果として、複数のサンプルが補完的な知識ではなく類似した情報を共有するデータセットが生まれてしまいます。本研究では、逐次的な段階を通じて合成データセットを段階的に構築する、学習可能性(learnability)駆動のデータセット蒸留を提案します。小さな集合から開始し、モデルを訓練してから、現行のモデルが学習できる内容を特定する学習可能性スコアに導かれて新しいサンプルを生成し、適応的なカリキュラムを作ります。さらに、現在のモデルに対する訓練有用性と、参照モデルに対する妥当性の両立を図って、カリキュラムに整合したサンプルを生成する Learnability-Guided Diffusion (LGD) を導入します。本手法は、冗長性を39.1%削減し、訓練段階間での専門化を促進するとともに、ImageNet-1K (60.1%)、ImageNette (87.2%)、ImageWoof (72.9%) において最先端の結果を達成します。コードはプロジェクトページ https://jachansantiago.github.io/learnability-guided-distillation/ で公開しています。

広告