要旨: 動画は本質的に、動的な3D世界の2D投影を表しています。しかし、私たちの分析によれば、生の動画データのみに基づいて学習された動画拡散モデルは、学習した表現の中に意味のある幾何学的に配慮された構造を捉えられないことが多いことが示唆されます。動画拡散モデルと、物理世界に潜む3D本質との間のギャップを埋めるために、私たちはGeometry Forcing(幾何学強制)という、シンプルでありながら効果的な手法を提案します。これは、動画拡散モデルが3D表現を内部化することを促すものです。私たちの主要な着想は、幾何学的な基盤モデルの特徴量と整合させることで、中間表現を幾何学に配慮した構造へ導くことです。そのために、2つの補完的な整合(アラインメント)目的を導入します。角度整合(Angular Alignment)は、コサイン類似度によって方向の一貫性を強制し、スケール整合(Scale Alignment)は、正規化された拡散表現から幾何学的特徴を回帰することで、スケールに関する情報を保持します。私たちは、Geometry Forcingを、カメラ視点条件付けとアクション条件付けの2つの動画生成タスクの両方で評価します。実験結果は、本手法がベースライン手法に比べて、視覚的品質と3D整合性を大幅に改善することを示しています。プロジェクトページ: https://GeometryForcing.github.io。
Geometry Forcing:ビデオ・ディフュージョンと3D表現を結び付け、整合的なワールドモデリングを実現する
arXiv cs.CV / 2026/5/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、動画拡散モデルを生の動画データだけで学習すると、3D世界由来の幾何学的構造を捉えにくく、幾何に配慮した表現が欠けがちだと主張しています。
- 「Geometry Forcing」は、幾何学的基盤モデルの特徴と中間表現を整合させることで、動画拡散モデルが3Dの幾何表現を内在化するよう促す学習手法として提案されます。
- 提案手法は補完的な2つの目的から成り、Angular Alignment(コサイン類似度で方向整合性を強制)と、Scale Alignment(正規化した拡散表現から幾何特徴を回帰してスケール情報を保持)を用います。
- カメラ視点条件付きおよびアクション条件付きの動画生成タスクで評価した結果、ベースラインよりも視覚品質と3D整合性が大幅に向上したことが示されています。
- 幾何学的制約を拡散ベースの動画生成に明示的に注入することで、ワールドモデリングの整合性を高める実用的アプローチを提示しています。




