固定された数式を超えて:効率的な拡散モデルのためのデータ駆動型リニア予測器

arXiv cs.LG / 2026/4/30

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • この論文は、拡散トランスフォーマ(DiT)のサンプリングコストの高さを問題視し、手作りの特徴キャッシュ予測式が過度なスキップで破綻する点を指摘しています。
  • 提案手法L2P(Learnable Linear Predictor)は、固定係数の代わりに時刻ごとの学習可能な重みを用い、過去の軌跡から現在の特徴を再構成できるキャッシュ枠組みです。
  • L2Pは単一GPUで約20秒と短時間で学習でき、DiT推論の効率化を目的としています。
  • 実験では大きな改善が示され、FLUX.1-devで4.55×のFLOPs削減と4.15×のレイテンシー短縮を達成し、Qwen-Imageでは最大7.18×の加速でも高い画質を維持して、従来手法の劣化を抑えています。
  • 著者はコードを公開しており、「リニア予測器を学習すること」が拡散モデルの効率的なサンプリングに有効だと結論づけています。

Abstract

拡散トランスフォーマ(DiT)の高いサンプリングコストに対処するために、特徴キャッシングは訓練なしでの高速化手法を提供します。しかし、既存の手法は手作りの予測(フォーキャスト)式に依存しており、過度なスキップが行われる状況では失敗します。本稿では、固定係数を各タイムステップごとの学習可能な重みで置き換える、シンプルなデータ駆動型のキャッシングフレームワークであるL2P(Learnable Linear Predictor)を提案します。単一のGPUで約20秒と短時間で学習するだけで、L2Pは過去の軌跡から現在の特徴を正確に再構成します。L2Pは既存のベースラインを大きく上回ります。FLUX.1-devにおいて、FLOPsを4.55倍削減し、レイテンシを4.15倍高速化します。また、Qwen-Imageモデルでは最大7.18倍の加速下でも高い視覚的忠実性を維持し、先行手法では品質の劣化が目立つことが示されます。これらの結果は、線形予測器を学習することが効率的なDiT推論に対して非常に有効であることを示しています。コードは https://github.com/Aredstone/L2P-Cache で入手できます。