ビデオ生成のための体系的なポストトレーニングフレームワーク

arXiv cs.CV / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、プロンプトへの過敏さ、時間的な一貫性の欠如、そして推論コストの高さといった問題により、大規模なビデオ拡散モデルの事前学習性能と実運用要件の間にギャップがあることを指摘しています。
  • 4段階のポストトレーニング手法として、まず教師あり微調整(SFT)で安定した指示追従ポリシーを作り、次にビデオ向けに調整したGroup Relative Policy Optimization(GRPO)を用いるRLHFで知覚品質と時間的な整合性を高めます。
  • さらに、専用の言語モデルによるプロンプト強化ステップを導入し、ユーザー入力と意図した出力の整合を改善します。
  • 推論最適化によりコストを抑えつつ、事前学習で獲得した制御性を維持することを目指します。
  • 実験では、一般的な生成アーティファクトの抑制と、厳しいサンプリング費用の制約下での制御性および見た目の美しさの大幅な向上が報告されています。