PhysVideo: 視点間幾何学ガイダンスによる物理的に妥当な動画生成

arXiv cs.CV / 2026/3/20

📰 ニュースModels & Research

共有:

要点

本論文はPhysVideoを紹介する。物理的に妥当な動画生成のための二段階フレームワークで、物理知識を持つ前景動画生成を行うPhys4Viewと背景知識を持つ合成を行うVideoSynから成る。
Phys4Viewは、物理知識対応のアテンション、幾何学を強化した視点間アテンション、そして時系列アテンションを用いて、複数の直交視点から3Dダイナミクスをよりよく捉える。
著者らはPhysMVを構築し、40,000シーン（各シーンは4つの直交視点を含み、合計160,000のシーケンス）を用いて、物理指向の動画生成を学習・評価する。
実験結果は、PhysVideoが従来の動画生成手法と比較して物理的リアリズムと時空間的整合性を向上させ、背景ダイナミクスと連携した、より制御可能な動画合成を実現することを示している。

要旨: 最近の動画生成の進歩は視覚的忠実度を大いに向上させましたが、物理的に一貫した運動を確保することは依然として根本的な課題です。直感的には、この制約は、実世界の物体の動きが三次元空間で展開する一方、動画観測はそのようなダイナミクスの一部でビュー依存の投影しか提供しないという事実に起因します。これらの問題に対処するため、私たちは PhysVideo を提案します。これは、まず物理属性を考慮した直交前景動画を生成し、次に背景を含む完全な動画を合成する2段階のフレームワークです。第一段階では、Phys4View は物理属性が運動ダイナミクスに与える影響を捉えるために物理認識的注意機構を活用し、幾何学的強化を施したクロスビュー注意と時間的注意を取り入れることで、時空間的一貫性を高めます。第二段階では、VideoSyn が生成された前景動画をガイダンスとして用い、前景ダイナミクスと背景コンテキストの相互作用を学習し、制御可能な動画合成を実現します。学習を支援するために、PhysMV を構築します。これは4万シーンを含み、それぞれが4つの直交視点から構成され、総計16万のビデオシーケンスになります。広範な実験により、PhysVideoは既存の動画生成手法と比較して物理的リアリズムと時空間的整合性を大幅に向上させることが示されています。ホームページ: https://anonymous.4open.science/w/Phys4D/.

仕様駆動開発における自己改良エージェント

Dev.to

誰かこれを試したことはありますか？ Flash-MoE: ノートパソコンで3,970億パラメータのモデルを動かす

Reddit r/LocalLLaMA

M2.7のオープンウェイト、約2週間で公開予定

Reddit r/LocalLLaMA

MiniMax M2.7 ウェイト公開予定

Reddit r/LocalLLaMA

Claude Codeに最適なオープンソースのコーディングモデルは？LB?

Reddit r/LocalLLaMA

PhysVideo: 視点間幾何学ガイダンスによる物理的に妥当な動画生成

要点

関連記事

仕様駆動開発における自己改良エージェント

誰かこれを試したことはありますか？ Flash-MoE: ノートパソコンで3,970億パラメータのモデルを動かす

M2.7のオープンウェイト、約2週間で公開予定

MiniMax M2.7 ウェイト公開予定

Claude Codeに最適なオープンソースのコーディングモデルは？LB?

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer