SHIFT: 敵対的ハイブリッド微調整による動画拡散モデルの運動整合性

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ファインチューニング後の動画拡散モデルにおける運動忠実性と長期的な時間的一貫性に取り組む。
瞬間的および長期的な運動の一貫性を捉えるため、ピクセルフラックスダイナミクスに基づくピクセル運動報酬を導入する。
Smooth Hybrid Fine-tuning (SHIFT) を提案し、報酬駆動型フレームワークのもとで監視付き微調整とアドバンテージ加重微調整を統合し、収束を改善し報酬ハッキングを低減するために敵対的なメリットを活用する。
実験の結果、SHIFT は監督付きファインチューニング中に現代の動画拡散モデルにおけるダイナミック度の崩壊を効果的に解決することを示した。

要旨：
画像条件付きのビデオ拡散モデルは顕著な視覚的リアリズムを実現しますが、しばしば動きの忠実度が低下します。例えば、動きのダイナミクスの低下や長期的な時間的一貫性の劣化が生じ、特にファインチューニング後には顕著です。
私たちは、トレーニング後のビデオ拡散モデルにおける動きの整合性の問題を調査します。
この問題を解決するために、ピクセルフラックスのダイナミクスに基づくピクセル運動報酬を導入し、瞬時的な動きの一貫性と長期的な動きの一貫性の両方を捉えます。
さらに、Smooth Hybrid Fine-tuning (SHIFT) という、ビデオ拡散モデル向けのスケーラブルな報酬駆動ファインチューニングフレームワークを提案します。
SHIFT は通常の教師ありファインチューニングとアドバンテージ重み付きファインチューニングを統一されたフレームワークに融合します。
新たな敵対的利点を活用することで、SHIFT は収束速度を向上させ、報酬ハッキングを緩和します。
実験では、私たちのアプローチが現代のビデオ拡散モデルの監視付きファインチューニングにおける動的度の崩壊を効率的に解決することを示しています。

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

完全ガイド: AIでお金を稼ぐ方法

Dev.to

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

Dev.to

脱メチル化

Dev.to

SHIFT: 敵対的ハイブリッド微調整による動画拡散モデルの運動整合性

要点

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

完全ガイド: AIでお金を稼ぐ方法

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

脱メチル化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer