動画拡散モデルは過去フレームを予測できるか？可逆的補間のための双方向サイクル整合性

arXiv cs.CV / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、時間的自己整合性を改善することで動画フレーム補間に取り組み、単方向の生成モデルに見られる失敗（モーションのドリフトや長い系列における境界の不整合）を解決することを目的とする。
進行方向と逆方向の両方を用い、サイクル整合性を持たせる学習フレームワークを提案し、可逆性を強制する。すなわち、前方向の合成と後方向の再構成を単一のアーキテクチャ内で同時に最適化する。
学習可能な方向性トークンにより、共通のバックボーンを時間的な向きに応じて条件付けし、統一されたパラメータを用いるまま、前方向と後方向の軌跡を区別できるようにする。
カリキュラム学習戦略として、短い系列から長い系列へ段階的に学習させることで、異なる長さにまたがる学習の安定化を図る。
著者らは、37フレームおよび73フレームの補間タスクにおいて、画像品質、モーションの滑らかさ、動的制御の点で最先端の結果を報告している。なお、推論時は依然として単一の前向きパスのみを用いる（追加の実行コストなし）。

要旨: ビデオフレーム補間は、与えられた両端の間に現実的な中間フレームを合成することを目的とし、特定のモーション意味論に従うことを重視する。近年の生成モデルは視覚的な忠実性を改善しているものの、主として一方向的に動作するため、時間的整合性を自己検証する仕組みが欠けている。その結果、特に長距離の系列において、モーションドリフト、方向の曖昧さ、境界の不一致が生じやすい。自己教師あり学習における時間的サイクル整合性の原理に着想を得て、本研究では、順方向と逆方向の生成軌道の間に対称性を強制する新しい双方向フレームワークを提案する。我々の手法では、学習可能な方向トークンを導入し、時間的な向きに明示的に条件付けすることで、共有バックボーンを方向に応じて制御できるようにする。これにより、単一の統一アーキテクチャの中で、順方向の合成と逆方向の再構成を共同で最適化できる。本サイクル整合的な教師信号は強力な正則化として機能し、生成されたモーション経路が論理的に可逆であることを保証する。さらに、学習を短い系列から長い系列へ段階的に進めるカリキュラム学習戦略を用い、持続時間が異なる場合でもダイナミクスを安定化させる。重要なのは、これらの巡回的制約は学習時にのみ適用し、推論では単一の順方向パスのみを必要とするため、ベースモデルの高い効率性を維持できる。大規模な実験の結果、我々の手法は、37フレーム課題および73フレーム課題の両方において、画質、モーションの滑らかさ、動的制御の点で最先端の性能を達成し、強力なベースラインを上回るとともに、追加の計算オーバーヘッドは発生しない。