DynaVid：合成モーションデータを用いて高度にダイナミックな動画を生成する学習

arXiv cs.CV / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

DynaVidは、拡散ベースのモデルが高度にダイナミックな動きや細かなモーション制御に苦手意識を持つことに着目した動画合成フレームワークとして導入されます。
この手法は、コンピュータグラフィックスのパイプラインから得た光学フローを用いて合成モーションの監督信号を生成することで、実トレーニングデータの不足を補い、多様なモーションパターンと精密な制御信号を提供します。
モーションを光学フローとして表現し、外観から切り離して学習することで、レンダリングされた合成動画に起因して生じうる不自然な視覚アーティファクトの回避を目指します。
アプローチは2段階のパイプラインを採用します。まずモーションジェネレータでモーションを合成し、次にそのモーションに条件付けてモーション誘導型の動画フレームを生成することで、制御性と現実味の両方を向上させます。
激しい人の動きや極端なカメラの動きといったシナリオでの実験により、既存手法と比べて特にデータセットが乏しい場合に、現実味と制御性が改善されることが示されています。

Abstract

最近の進展にもかかわらず、ビデオ拡散モデルは、高度にダイナミックな動きを含む、またはきめ細かな動きの制御可能性を必要とする現実的な動画の合成に依然として苦戦しています。中心的な制約は、一般的に使用される学習データセットにおいて、このような例が不足していることにあります。そこで本研究では、光学フローとして表現し、コンピュータグラフィックスのパイプラインを用いてレンダリングした合成動作データを学習に活用する、動画合成フレームワークであるDynaVidを提案します。このアプローチには2つの重要な利点があります。第一に、合成動作は、多様な動作パターンと、実データからは得にくい精密な制御信号を提供します。第二に、人工的な見た目を伴うレンダリング動画とは異なり、レンダリングされた光学フローは動きのみを符号化し、見た目（外観）から切り離されています。これにより、合成動画の不自然な見た目をモデルが再現してしまうことを防ぎます。この考え方に基づき、DynaVidは2段階の生成フレームワークを採用します。すなわち、まずモーション生成器が動きを合成し、次にその動きに条件付けられたモーションガイド付き動画生成器が動画フレームを生成します。この切り離し（デカップル）された定式化により、モデルは合成データから動的な動作パターンを学習しつつ、実世界の動画からの視覚的な現実味を維持できます。本フレームワークは、既存データセットが特に限られている、2つの難しいシナリオ、すなわち激しい人間の動きの生成と、極端なカメラ動作制御に対して検証します。大規模な実験の結果、DynaVidは動的動作生成およびカメラ動作制御における現実味と制御可能性を向上させることが示されました。