要旨: データセット蒸留は、大規模データセットの情報を、著しく小さい合成データセットへ蒸留することで、効率的な学習を可能にします。拡散ベースのパラダイムは近年登場し、データセット蒸留に対する新たな見方を提供しています。しかし、通常は追加の微調整段階を必要とし、有効なガイダンス機構はいまだ十分に探究されていません。これらの制約に対処するために、私たちは拡散ベースのデータセット蒸留を改めて考察し、効率的な学習不要ガイダンスを中心としたDual Matching Guided Diffusion(DMGD)フレームワークを提案します。まず、条件付き尤度最適化によってセマンティック・マッチングを確立し、副次的な分類器を不要にします。さらに、意味的整合性を維持しつつ合成データの多様性を高める動的ガイダンス機構を提案します。同時に、目標分布の構造にさらに整合させるために、最適輸送(OT)に基づく分布マッチング手法を導入します。効率性を確保するために、拡散ベースのフレームワーク向けに、Distribution Approximate Matching(分布近似マッチング)とGreedy Progressive Matching(貪欲逐次マッチング)の2つの改良戦略を開発します。これらの戦略により、計算オーバーヘッドを最小限に抑えつつ、効果的な分布マッチングのためのガイダンスを実現します。ImageNet-Woof、ImageNet-Nette、およびImageNet-1Kでの実験結果は、私たちの学習不要アプローチが大幅な改善を達成し、追加の微調整を必要とする最先端(SOTA)手法を、それぞれ平均精度で2.1%、5.4%、2.4%上回ることを示しています。
DMGD:拡散モデルにおけるセマンティック分布マッチングによる訓練不要のデータセット蒸留
arXiv cs.CV / 2026/5/6
📰 ニュースModels & Research
要点
- 本論文は、追加の学習や微調整を必要としない効率的なガイダンスを提供することを目的に、DMGD(Dual Matching Guided Diffusion)という拡散モデルベースのデータセット蒸留フレームワークを提案しています。
- 条件付き尤度最適化によるセマンティック分布マッチングを行い、セマンティックの整合性を補助分類器なしで実現します。
- 合成データの多様性を高めつつ、意味的な整合性を維持する動的ガイダンス機構を提案しています。
- 最適輸送(OT)に基づく分布マッチングで、目標分布の構造への適合度をさらに高め、計算負荷を抑えるために近似および段階的手法(Distribution Approximate Matching、Greedy Progressive Matching)を導入しています。
- ImageNet-Woof、ImageNet-Nette、ImageNet-1Kでの実験では、追加微調整が必要なSOTA手法よりも学習不要の本手法が平均精度でそれぞれ2.1%、5.4%、2.4%上回ることを示しています。



