要旨: 推論予算を極端に低くした(例: 2--4 NFEs)動画生成モデルの蒸留は、リアルタイム展開にとって重要ですが、依然として困難です。軌跡スタイルの一貫性蒸留は、複雑な動画ダイナミクスの下ではしばしば保守的になり、その結果として過度に平滑化された見た目や弱いモーションが生じます。分布整合蒸留(DMD)はシャープでモードを求めるサンプルを回復できますが、その局所的な学習信号は、ノイズ除去更新がタイムステップをまたいでどのように合成されるかを明示的に正則化しません。そのため、合成されたロールアウトはドリフトしやすくなります。
この課題を克服するために、本研究では、連続するノイズ除去更新のエンドポイント整合的な合成を明示的に正則化する自己整合分布整合蒸留(SC-DMD)を提案します。リアルタイム自己回帰動画生成のために、さらにKVキャッシュを品質をパラメータ化した条件として扱い、キャッシュ分布を考慮した学習(Cache-Distribution-Aware training)を提案します。この学習方式では、SC-DMDを多ステップのロールアウトに適用し、キャッシュ条件付きの特徴アライメント目的を導入することで、低品質な出力を高品質な参照へと導きます。非自己回帰のバックボーン(例: Wan~2.1)と自己回帰のリアルタイム・パラダイム(例: Self Forcing)の両方に関する広範な実験において、本手法は \\textbf{Salt} と称され、低-NFE動画生成の品質を一貫して向上させつつ、さまざまなKVキャッシュ・メモリ機構とも両立可能です。ソースコードは \\href{https://github.com/XingtongGe/Salt}{https://github.com/XingtongGe/Salt} で公開予定です。
Salt:高速ビデオ生成のための、キャッシュを考慮した自己整合(Self-Consistent)ディストリビューションマッチング
arXiv cs.CV / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、極めて低い推論予算(約2〜4回の関数評価/NFE)下でのリアルタイム・ビデオ生成を改善することを目的とした、蒸留手法Salt(SC-DMD)を提案する。
- 先行研究の一貫性ディストリレーションの欠点に対し、連続するノイズ除去更新がどのように合成されるかを明示的に正則化することで、ロールアウトがドリフトしたり過度に平滑化されたりするのではなく、エンドポイントに一貫したまま保たれるようにする。
- Saltは、KVキャッシュを条件付けの品質シグナルとして扱い、キャッシュ条件付きの特徴アライメント目的と「Cache-Distribution-Aware(キャッシュ分布を考慮した)学習」を用いることで、自autoregressiveな低NFE生成もさらに強化する。
- Wan 2.1のような非自己回帰バックボーンと、Self Forcingのような自己回帰型のリアルタイム・パラダイムの両方での実験により、低NFE時の出力品質が一貫してより良好であることが報告されている。さらに、異なるKVキャッシュのメモリ機構とも互換性を維持する。
- 著者らはコードを公開予定であると述べており、手法が再現可能であり、さらなる研究やデプロイ/実装を見据えた実験に利用できることを意図していることが示されている。



