要旨: Diffusion transformersは動画の生成において顕著な能力を示しています。
しかし、実用的な展開は高いメモリ使用量と計算コストによって深刻に制約されています。
訓練後量子化は、メモリ使用量を削減し、計算速度を向上させる実践的な方法を提供します。
既存の量子化手法は通常、静的なビット幅割り当てを適用し、拡散のタイムステップ全体における活性化の量子化難易度を見落とすため、効率と品質の間の最適でないトレードオフを招きます。
本論文では、推論時にNVFP4/INT8混合精度量子化フレームワークを提案します。
ブロックの入力と出力の差分と、その内部線形層の量子化感度との間に強い線形相関を見つけました。
この洞察に基づき、時間的に安定な層にはNVFP4を動的に割り当て、メモリ圧縮を最大化する軽量な予測器を設計します。一方、揮発性のある層にはINT8を選択的に保持して頑健性を確保します。
この適応型精度戦略は、生成品質を損なうことなく大幅な量子化を実現します。
これに加えて、Transformerブロックの入力と出力の残差は、タイムステップをまたいで高い時間的一貫性を示すことを観察しました。
この時間的冗長性を活用し、Temporal Delta Cache (TDC)を導入して、これらの不変ブロックの計算をスキップし、計算コストをさらに削減します。
広範な実験により、本手法はエンドツーエンドの加速1.92倍とメモリ削減3.32倍を達成し、Video DiTsにおける効率的な推論の新しいベースラインを設定します。
6Bit-Diffusion: 推論時の混合精度量子化による動画拡散モデル
arXiv cs.CV / 2026/3/20
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 動画拡散モデル向けの新しいポストトレーニング量子化フレームワークは、推論時の混合精度 NVFP4/INT8 量子化を可能にし、メモリ使用量と計算コストを削減します。
- この手法は、軽量な予測器を用いて、時間的に安定な層には NVFP4 を割り当て、不安定な層には INT8 を維持することで、効率と頑健性のバランスを取ります。
- Temporal Delta Cache(TDC)を活用して、時間的冗長性の高いトランスフォーマーブロックの計算をスキップし、コストをさらに低減します。
- 実験では、エンドツーエンドの速度が約1.92倍、メモリ削減が約3.32倍となり、Video Diffusion Transformers(DiTs)の効率的な推論における新たなベースラインを設定します。

