要旨:
画像条件付きのビデオ拡散モデルは顕著な視覚的リアリズムを実現しますが、しばしば動きの忠実度が低下します。例えば、動きのダイナミクスの低下や長期的な時間的一貫性の劣化が生じ、特にファインチューニング後には顕著です。
私たちは、トレーニング後のビデオ拡散モデルにおける動きの整合性の問題を調査します。
この問題を解決するために、ピクセルフラックスのダイナミクスに基づくピクセル運動報酬を導入し、瞬時的な動きの一貫性と長期的な動きの一貫性の両方を捉えます。
さらに、Smooth Hybrid Fine-tuning (SHIFT) という、ビデオ拡散モデル向けのスケーラブルな報酬駆動ファインチューニングフレームワークを提案します。
SHIFT は通常の教師ありファインチューニングとアドバンテージ重み付きファインチューニングを統一されたフレームワークに融合します。
新たな敵対的利点を活用することで、SHIFT は収束速度を向上させ、報酬ハッキングを緩和します。
実験では、私たちのアプローチが現代のビデオ拡散モデルの監視付きファインチューニングにおける動的度の崩壊を効率的に解決することを示しています。
SHIFT: 敵対的ハイブリッド微調整による動画拡散モデルの運動整合性
arXiv cs.CV / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ファインチューニング後の動画拡散モデルにおける運動忠実性と長期的な時間的一貫性に取り組む。
- 瞬間的および長期的な運動の一貫性を捉えるため、ピクセルフラックスダイナミクスに基づくピクセル運動報酬を導入する。
- Smooth Hybrid Fine-tuning (SHIFT) を提案し、報酬駆動型フレームワークのもとで監視付き微調整とアドバンテージ加重微調整を統合し、収束を改善し報酬ハッキングを低減するために敵対的なメリットを活用する。
- 実験の結果、SHIFT は監督付きファインチューニング中に現代の動画拡散モデルにおけるダイナミック度の崩壊を効果的に解決することを示した。