AI Navigate

PhysAlign: 特徴と3D表現の整合による物理コヒーレントな画像から動画生成

arXiv cs.CV / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • PhysAlignは、多くの動画拡散モデルに内在する時間的な不連続性と物理法則の逸脱を緩和する、物理的コヒーレンスを備えた画像から動画生成のフレームワークを提供します。
  • 物理アノテーション付き動画の不足に対処するため、この手法は、正確な3Dアノテーションを持つ剛体シミュレーションから生成された制御可能な合成データセットで学習します。
  • 明示的な3D幾何学的制約とGramベースの時空的関係アライメントを結合させることで、動画基盤モデルから運動学的事前知識を抽出する統一的な物理潜在空間を構築します。
  • 実験の結果、PhysAlignは、複雑な物理推論や時間的安定性を要するタスクにおいて、既存の動画拡散モデル(VDM)より顕著に優れており、ゼロショットの視覚品質を維持します。
  • 本研究は視覚合成と剛体運動学を結びつけることを目指し、物理学に基づく動画生成の実用的なパラダイムを提示します。詳しくはプロジェクトページ https://physalign.github.io/PhysAlign をご覧ください。

要旨:ビデオ拡散モデル(VDMs)は、ダイナミックな場面や環境をシミュレートする有望なアプローチを提供し、ロボティクスやメディア生成において広範な応用があります。しかし、既存のモデルは時間的一貫性のないコンテンツを生成することが多く、基本的な物理の直感に反するため、実用的な適用性を大きく制限します。私たちは PhysAlign を提案します。これは、物理的一貫性を持つ画像から動画への生成(I2V)に対する効率的なフレームワークであり、この制限を明示的に解決します。物理アノテーション付き動画の深刻な不足を克服するため、まずリジッドボディシミュレーションに基づく完全に制御可能な合成データ生成パイプラインを構築し、正確で細かな物理と3Dアノテーションを備えた高度に厳選されたデータセットを作成します。このデータを活用して、PhysAlign は、明示的な3D幾何制約と、動画基盤モデルから運動学的事前情報を抽出するグラムベースの時空的関係整合を結合することで、統一された物理潜在空間を構築します。大規模な実験により、PhysAlign は、複雑な物理推論と時間的安定性を要するタスクにおいて、既存のVDMsより著しく優れていることを示しています。ゼロショットの視覚品質を損なうことなく、PhysAlign は生の視覚合成とリジッドボディ運動学のギャップを橋渡しする可能性を示し、真に物理に基づく動画生成の実用的なパラダイムを確立します。プロジェクトページは https://physalign.github.io/PhysAlign で利用できます。