AI Navigate

トレーニング不要の動作因数分解による合成動画生成

arXiv cs.CV / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • 本論文は複雑な動きを「静止」「剛体動作」「非剛体動作」の3つのカテゴリに分解する、動画合成のための新たな動作因数分解フレームワークを提案する。
  • 手法は2段階のパラダイムを採用しており、まず動作グラフ上で動作法則を計画しインスタンス間の相互作用を構造化し、その後各動作カテゴリを分離して調整しながら動画フレームを生成する。
  • このフレームワークはモデルに依存しない設計であり、様々な拡散モデルアーキテクチャに組み込み可能で、リアルで多様な動作の生成能力を向上させる。
  • 実世界のベンチマークでの実験により、特にユーザープロンプトで指定された多様な動作パターンの理解・生成において優れた性能を示した。
  • 著者らはコードを公開予定であり、動画合成のさらなる普及と研究促進を目指している。

要旨: 合成動画生成は、複数のインスタンスを多様な外観と動作で合成することを目的としており、現実世界の多くのシナリオで広く応用可能である。しかし、現在の手法は主にセマンティクスの結合に焦点を当てており、プロンプトで指定された多様な動作カテゴリの理解を十分に扱えていない。本論文では、複雑な動作を「静止」「剛体動作」「非剛体動作」の3つの主要カテゴリに分解する動作因数分解フレームワークを提案する。具体的には、本フレームワークは計画を先行するパラダイムに従う。(1) 計画段階では、動作グラフ上で法則を推論し、各インスタンスの形状および位置のフレーム単位変化を求める。これにより、ユーザープロンプトに潜むセマンティックの曖昧さを軽減し、インスタンスとその相互作用の構造的表現として整理する。(2) 生成段階では、それぞれの動作カテゴリの合成を分離的に調整する。動作の手掛かりに条件付けて、ガイダンスブランチが静止領域での外観を安定化し、剛体の幾何学形状を保持し、局所的な非剛体変形を正則化する。重要なことに、これら2つのモジュールはモデルに依存しないため、様々な拡散モデルアーキテクチャにシームレスに組み込むことができる。広範な実験により、本フレームワークは現実世界ベンチマーク上での動作合成において優れた性能を示すことが確認された。コードは近日公開予定である。