DCARL:自己回帰型ロングトラジェクトリービデオ生成のための分割統治フレームワーク

arXiv cs.CV / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、スケーラビリティ、視覚的ドリフト、制御性の課題に直面している既存モデルの限界を改善することを目的とした、分割統治型の自己回帰フレームワークであるDCARLを提案する。
  • DCARLは、まずKeyframe Generatorによって大域的に一貫した構造アンカーを生成する(時間圧縮なしで学習)し、その後、重なり合うセグメントを用いて密なフレームを自己回帰的に生成するInterpolation Generatorを用いる。
  • 補間(interpolation)段階では、グローバルな文脈のためにキーフレームを活用しつつ、局所的な時間的一貫性を保つために、クリーンな直前の単一フレームのみを使用する。
  • 大規模なインターネットのロングトラジェクトリービデオデータセットで学習したDCARLは、視覚品質(FID/FVDの低下)とカメラ追従性(ATE/AREの低下)の両面において、先行する自己回帰および分割統治のベースラインより良い結果を報告している。
  • 本手法は、最大32秒までのロングトラジェクトリービデオ合成で実証されており、安定かつ高忠実度な生成が可能であると主張している。

要旨: 長軌道(ロングトラジェクトリ)動画生成は、既存の動画拡散モデル(VDM)のスケーラビリティが限られていることが主な理由で、極めて重要でありながらも困難な課題です。オートレグレッシブ(自己回帰)モデルは、無限ロールアウトを可能にする一方で、視覚的ドリフトや制御性の低さに悩まされます。これらの問題に対処するために、DCARL(Divide-and-Conquer Autoregressive with Keyframes and Interpolation)を提案します。これは、新しい divide-and-conquer(分割統治)とオートレグレッシブの枠組みであり、分割統治スキームの構造的安定性と、VDMの高忠実度生成を効果的に組み合わせます。提案手法ではまず、時間圧縮を行わずに訓練された専用のキーフレーム生成器を用いて、長距離かつ大域的に整合した構造アンカーを確立します。その後、補間生成器が、重なり合う区間を用いてオートレグレッシブに密なフレームを合成します。ここでは、キーフレームによって大域的文脈を与え、さらに局所的な整合性のために、単一のクリーンな直前フレームを用います。大規模なインターネット長軌道動画データセットで学習した本手法は、最先端のオートレグレッシブおよび分割統治のベースラインと比較して、映像品質(FIDおよびFVDの低さ)とカメラ追従性(ATEおよびAREの低さ)の両方で優れた性能を達成し、最大32秒の長軌道動画に対して安定かつ高忠実度な生成を示します。