DiffSparse:学習されたトークンのスパース性で拡散トランスフォーマを加速する
arXiv cs.CV / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- DiffSparseは、拡散トランスフォーマによる画像生成に対して、層ごとのスパース性を微分可能に最適化する枠組みを提案し、多段推論に伴う高い計算コストを削減します。
- この手法は、トークンキャッシュと、端から端まで学習可能なスパース性割り当てネットワーク、さらに動的計画法ソルバを組み合わせ、従来のキャッシュやスパース性戦略に潜む非効率を狙い撃ちます。
- 2段階の学習戦略により、先行するトークンキャッシュ手法で用いられていた“フルステップ処理”をさらに回避し、推論効率を向上させます。
- DiT-XL/2、PixArt-α、FLUX、Wan2.1など複数の拡散トランスフォーマモデルに対する実験では、品質劣化なしで一貫した効率向上が示されます。
- PixArt-αでサンプリングステップ数20の場合、DiffSparseは計算コストを54%削減しつつ、生成指標はベースラインおよび先行手法を上回る性能を達成したと報告しています。




