概要: 通常は短いクリップで学習される事前学習済みの動画拡散モデルを用いて長尺動画を生成することは、大きな課題である。これらのモデルを長尺動画の推論にそのまま適用すると、視覚品質が顕著に劣化することが多い。本論文は、この問題が主に、分布外(O.O.D)に関する2つの問題、すなわちフレームレベルの相対位置O.O.Dと文脈長O.O.Dに起因していることを明らかにする。これらの課題に対処するため、我々はFreeLOCを提案する。FreeLOCは学習不要(training-free)の新しい、層適応型フレームワークであり、2つの中核技術を導入する。フレームレベルの相対位置O.O.Dに対しては、動画ベースの相対位置再エンコード(Video-based Relative Position Re-encoding: VRPR)を用いる。さらに、文脈長O.O.Dに対しては、階層的に時間的相対位置を再エンコードしてモデルの事前学習分布に整合させる、マルチグラニュラリティ戦略を導入する。そして、文脈長O.O.Dに対しては、Tiered Sparse Attention(TSA)を用いる。TSAは、異なる時間スケールにわたって注意密度を構造化することで、局所的な詳細と長距離の依存関係の両方を保持する。重要な点として、我々は、各Transformer層がこれらのO.O.D問題に対してどれほど敏感かを特定する層適応型のプロービング機構を導入し、提案手法を選択的かつ効率的に適用できるようにする。大規模な実験により、我々の手法は既存の学習不要手法を大きく上回り、時間的な一貫性と視覚品質の両方において最先端の結果を達成することを示す。コードは https://github.com/Westlake-AGI-Lab/FreeLOC で公開されている。
層適応型O.O.D補正によるフリーランチ長尺動画生成
arXiv cs.CV / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、事前学習済み動画拡散モデルによる長尺動画生成に取り組み、品質劣化の主要な原因として、フレームレベルの相対位置の外れ(O.O.D)と、コンテキスト長のO.O.Dの2つを特定する。
- 学習不要(training-free)の層適応フレームワークであるFreeLOCを提案し、Video-based Relative Position Re-encoding(VRPR)を適用することで、時間的な相対位置をモデルの事前学習分布へ再整列させる。
- コンテキスト長のO.O.Dに対しては、局所的な詳細を保持しつつ、多段階(マルチスケール)の注意構造化によって長距離の時間的依存を維持するTiered Sparse Attention(TSA)を導入する。
- 層適応型のプロービング機構により、各O.O.D課題に最も敏感なトランスフォーマ層を推定し、補正の選択的かつ効率的な適用を可能にする。
- 実験では、時間的一貫性と視覚品質の両面で、既存の学習不要手法に対する最先端の改善が報告されており、付随するコードはGitHubで公開されている。