MMPhysVideo：共同マルチモーダルモデリングによる動画生成における物理的妥当性のスケーリング

arXiv cs.CV / 2026/4/6

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、ピクセルのみの再構成がしばしば物理的に整合しない動きを引き起こすことに対処することで、動画拡散モデルにおける物理的妥当性の向上を目指すフレームワークMMPhysVideoを提案する。

要旨: 視覚的に見栄えのするコンテンツの生成における進歩にもかかわらず、ビデオ拡散モデル（VDM）は、ピクセルのみの再構成によって物理的に一貫しない結果を生じがちです。これに対処するため、共同マルチモーダルモデリングによってビデオ生成の物理的もっともらしさをスケールさせる、初の枠組みであるMMPhysVideoを提案します。私たちは、知覚的手がかり、具体的には意味、幾何、時空間軌跡を、統一された擬似RGB形式へと再編成し、VDMが複雑な物理ダイナミクスを直接捉えられるようにします。モーダル間の干渉を軽減するために、双方向制御付き教師（Bidirectionally Controlled Teacher）アーキテクチャを提案します。これは、RGBと知覚処理を完全にデカップルするための並列ブランチを利用し、さらにゼロ初期化された2つの制御リンクを採用して、ピクセル単位の整合性を段階的に学習します。推論効率のために、教師の物理的事前知識は、表現の整合により単一ストリームの学生モデルへ蒸留されます。さらに、物理性に富んだマルチモーダルデータセットを構築するための、大規模化可能なデータキュレーションおよびアノテーションのパイプラインであるMMPhysPipeを提示します。MMPhysPipeは、連鎖型の視覚的証拠ルールにより導かれる視覚言語モデル（VLM）を用いて、物理的な対象を特定し、専門モデルが多粒度の知覚情報を抽出できるようにします。追加の推論コストなしで、MMPhysVideoは多様なベンチマークにおいて、先進的なモデルよりも物理的もっともらしさと視覚品質を一貫して向上させ、既存手法と比較して最先端の性能を達成します。