リアルタイム・レンダラーとしてのDiT:自己回帰拡散トランスフォーマによるストリーミング動画のスタイライズ
arXiv cs.CV / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、長尺動画における安定性と一貫性を高めるために拡散トランスフォーマを用いる、ストリーミング動画スタイライズの枠組みRTR-DiTを提案する。
- それは、テキストガイドおよびリファレンスガイドのスタイライズの両方に対して双方向の教師モデルを微調整し、その後Self ForcingとDistribution Matching Distillationによって、少数ステップの自己回帰モデルへ圧縮する。
- 長い系列にわたる一貫性を維持し、テキストプロンプトと参照画像の間でリアルタイムに切り替え可能にするための、リファレンス保持型KVキャッシュ更新戦略が提案される。
- 実験結果では、RTR-DiTが定量指標と視覚的品質の両面で、従来の拡散ベースのスタイライズ手法を上回り、さらにリアルタイムのインタラクティブ応用をサポートすることが報告されている。




