トレーニング不要の動作因数分解による合成動画生成

arXiv cs.CV / 2026/3/11

Ideas & Deep AnalysisModels & Research

共有:

要点

本論文は複雑な動きを「静止」「剛体動作」「非剛体動作」の3つのカテゴリに分解する、動画合成のための新たな動作因数分解フレームワークを提案する。
手法は2段階のパラダイムを採用しており、まず動作グラフ上で動作法則を計画しインスタンス間の相互作用を構造化し、その後各動作カテゴリを分離して調整しながら動画フレームを生成する。
このフレームワークはモデルに依存しない設計であり、様々な拡散モデルアーキテクチャに組み込み可能で、リアルで多様な動作の生成能力を向上させる。
実世界のベンチマークでの実験により、特にユーザープロンプトで指定された多様な動作パターンの理解・生成において優れた性能を示した。
著者らはコードを公開予定であり、動画合成のさらなる普及と研究促進を目指している。

要旨: 合成動画生成は、複数のインスタンスを多様な外観と動作で合成することを目的としており、現実世界の多くのシナリオで広く応用可能である。しかし、現在の手法は主にセマンティクスの結合に焦点を当てており、プロンプトで指定された多様な動作カテゴリの理解を十分に扱えていない。本論文では、複雑な動作を「静止」「剛体動作」「非剛体動作」の3つの主要カテゴリに分解する動作因数分解フレームワークを提案する。具体的には、本フレームワークは計画を先行するパラダイムに従う。(1) 計画段階では、動作グラフ上で法則を推論し、各インスタンスの形状および位置のフレーム単位変化を求める。これにより、ユーザープロンプトに潜むセマンティックの曖昧さを軽減し、インスタンスとその相互作用の構造的表現として整理する。(2) 生成段階では、それぞれの動作カテゴリの合成を分離的に調整する。動作の手掛かりに条件付けて、ガイダンスブランチが静止領域での外観を安定化し、剛体の幾何学形状を保持し、局所的な非剛体変形を正則化する。重要なことに、これら2つのモジュールはモデルに依存しないため、様々な拡散モデルアーキテクチャにシームレスに組み込むことができる。広範な実験により、本フレームワークは現実世界ベンチマーク上での動作合成において優れた性能を示すことが確認された。コードは近日公開予定である。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

トレーニング不要の動作因数分解による合成動画生成

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer