固定された数式を超えて:効率的な拡散モデルのためのデータ駆動型リニア予測器
arXiv cs.LG / 2026/4/30
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- この論文は、拡散トランスフォーマ(DiT)のサンプリングコストの高さを問題視し、手作りの特徴キャッシュ予測式が過度なスキップで破綻する点を指摘しています。
- 提案手法L2P(Learnable Linear Predictor)は、固定係数の代わりに時刻ごとの学習可能な重みを用い、過去の軌跡から現在の特徴を再構成できるキャッシュ枠組みです。
- L2Pは単一GPUで約20秒と短時間で学習でき、DiT推論の効率化を目的としています。
- 実験では大きな改善が示され、FLUX.1-devで4.55×のFLOPs削減と4.15×のレイテンシー短縮を達成し、Qwen-Imageでは最大7.18×の加速でも高い画質を維持して、従来手法の劣化を抑えています。
- 著者はコードを公開しており、「リニア予測器を学習すること」が拡散モデルの効率的なサンプリングに有効だと結論づけています。

