リアルタイム・レンダラーとしてのDiT:自己回帰拡散トランスフォーマによるストリーミング動画のスタイライズ

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、長尺動画における安定性と一貫性を高めるために拡散トランスフォーマを用いる、ストリーミング動画スタイライズの枠組みRTR-DiTを提案する。
  • それは、テキストガイドおよびリファレンスガイドのスタイライズの両方に対して双方向の教師モデルを微調整し、その後Self ForcingとDistribution Matching Distillationによって、少数ステップの自己回帰モデルへ圧縮する。
  • 長い系列にわたる一貫性を維持し、テキストプロンプトと参照画像の間でリアルタイムに切り替え可能にするための、リファレンス保持型KVキャッシュ更新戦略が提案される。
  • 実験結果では、RTR-DiTが定量指標と視覚的品質の両面で、従来の拡散ベースのスタイライズ手法を上回り、さらにリアルタイムのインタラクティブ応用をサポートすることが報告されている。

Abstract

近年の動画生成モデルの進歩により、動画生成および関連する下流タスクは大幅に加速されました。その中でも、動画スタイライズは没入型アプリケーションや芸術的創作といった領域において重要な研究価値を持ち、広く注目を集めています。しかし、既存の拡散ベースの動画スタイライズ手法は、長い動画を処理するときに安定性と一貫性を維持することが困難であり、計算コストが高く、多段階のノイズ除去を必要とするため、実運用の場面では適用が難しいという課題があります。本研究では、Diffusion Transformer に基づく高速動画スタイライズフレームワーク RTR-DiT(DiT をリアルタイム・レンダラーとして用いる)を提案します。まず、厳選した動画スタイライズデータセット上で双方向の教師モデルを微調整し、テキスト誘導および参照誘導の両方の動画スタイライズ課題に対応させ、その後、Self Forcing と Distribution Matching Distillation によるポストトレーニングを通じて、それを数ステップの自己回帰モデルへ蒸留します。さらに、参照を保持する KV キャッシュ更新戦略を提案します。これにより、長い動画の安定かつ一貫した処理が可能になるだけでなく、テキストプロンプトと参照画像の間でリアルタイムに切り替えることもサポートします。実験結果では、RTR-DiT は、定量指標と視覚品質の両面において、テキスト誘導および参照誘導の両方の動画スタイライズ課題で既存手法を上回ることが示され、さらに、リアルタイムの長尺動画スタイライズおよびインタラクティブなスタイル切替アプリケーションにおいて優れた性能を示します。

リアルタイム・レンダラーとしてのDiT:自己回帰拡散トランスフォーマによるストリーミング動画のスタイライズ | AI Navigate