効率的な拡散モデル推論のためのタイムステップ対応ブロックマスキング

arXiv cs.CV / 2026/3/23

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

ステップごとに特化したマスクを導入し、各デノイズステップで実行すべきブロックを選択することで、拡散モデルの推論レイテンシを低減する。
各タイムステップごとにマスクを学習し、特徴の再利用を促進するとともに全連鎖のバックプロパゲーションを回避し、メモリ効率の高いトレーニングを実現する。
タイムステップを意識した損失スケーリングと、知識に基づくマスク修正戦略を追加し、敏感なデノイズ段階での忠実度を維持しつつ、冗長な依存関係を剪定する。
アーキテクチャに依存しない適用性を示し、DDPM、LDM、DiT、PixArt に跨る効率向上を報告しており、コードの公開を予定している。

要旨: 拡散確率モデル（DPMs）は画像生成において大きな成功を収めていますが、反復的なデノイズ処理の性質により推論遅延が高くなるという課題があります。デノイジング軌道全体で進化する特徴ダイナミクスに着目し、事前学習済みDPMの計算グラフをタイムステップごとに最適化する新しいフレームワークを提案します。タイムステップ特有のマスクを学習することにより、各推論段階でどのブロックを実行するか、あるいは特徴の再利用を通じて回避するかを動的に決定します。全チェーンバックプロパゲーションによって膨大なメモリコストを伴うグローバル最適化手法とは異なり、我々の手法は各タイムステップのマスクを独立して最適化し、メモリ効率の高い訓練プロセスを保証します。この過程を導くために、敏感なデノイジングフェーズで特徴の忠実度を優先するタイムステップ認識型の損失スケーリング機構を導入し、知識に導かれたマスク修正戦略を補完として冗長な時空依存を剪定します。我々のアプローチはアーキテクチャに依存しないもので、DDPM、LDM、DiT、PixArtを含む幅広いモデル群で顕著な効率性向上を示します。実験結果は、デノイジング処理を最適化された計算パスのシーケンスとして扱うことにより、サンプリング速度と生成品質の間で優れたバランスを達成することを示しています。我々のコードは公開される予定です。