Geometry Forcing：ビデオ・ディフュージョンと3D表現を結び付け、整合的なワールドモデリングを実現する

arXiv cs.CV / 2026/5/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、動画拡散モデルを生の動画データだけで学習すると、3D世界由来の幾何学的構造を捉えにくく、幾何に配慮した表現が欠けがちだと主張しています。
「Geometry Forcing」は、幾何学的基盤モデルの特徴と中間表現を整合させることで、動画拡散モデルが3Dの幾何表現を内在化するよう促す学習手法として提案されます。
提案手法は補完的な2つの目的から成り、Angular Alignment（コサイン類似度で方向整合性を強制）と、Scale Alignment（正規化した拡散表現から幾何特徴を回帰してスケール情報を保持）を用います。
カメラ視点条件付きおよびアクション条件付きの動画生成タスクで評価した結果、ベースラインよりも視覚品質と3D整合性が大幅に向上したことが示されています。
幾何学的制約を拡散ベースの動画生成に明示的に注入することで、ワールドモデリングの整合性を高める実用的アプローチを提示しています。

要旨: 動画は本質的に、動的な3D世界の2D投影を表しています。しかし、私たちの分析によれば、生の動画データのみに基づいて学習された動画拡散モデルは、学習した表現の中に意味のある幾何学的に配慮された構造を捉えられないことが多いことが示唆されます。動画拡散モデルと、物理世界に潜む3D本質との間のギャップを埋めるために、私たちはGeometry Forcing（幾何学強制）という、シンプルでありながら効果的な手法を提案します。これは、動画拡散モデルが3D表現を内部化することを促すものです。私たちの主要な着想は、幾何学的な基盤モデルの特徴量と整合させることで、中間表現を幾何学に配慮した構造へ導くことです。そのために、2つの補完的な整合（アラインメント）目的を導入します。角度整合（Angular Alignment）は、コサイン類似度によって方向の一貫性を強制し、スケール整合（Scale Alignment）は、正規化された拡散表現から幾何学的特徴を回帰することで、スケールに関する情報を保持します。私たちは、Geometry Forcingを、カメラ視点条件付けとアクション条件付けの2つの動画生成タスクの両方で評価します。実験結果は、本手法がベースライン手法に比べて、視覚的品質と3D整合性を大幅に改善することを示しています。プロジェクトページ: https://GeometryForcing.github.io。

Seedanceが話題に：NVIDIAのAIガイドによるチップ設計がロボットの学習を忘れさせない

The Batch

データセンター建設ブーム、建築設計の自動化を後押しするか

日経XTECH

ソフトバンクが生成AIで特許を大量出願、問われる知財部の役割

日経XTECH

VLA内製へ、ローム買収に意欲

日経XTECH

ルネサス、独自コアの車載マイコンで4年半ぶり新製品暗号処理専用のハードウエアアクセラレーターを搭載ほか

日経XTECH

Geometry Forcing：ビデオ・ディフュージョンと3D表現を結び付け、整合的なワールドモデリングを実現する

要点

関連記事

Seedanceが話題に：NVIDIAのAIガイドによるチップ設計がロボットの学習を忘れさせない

データセンター建設ブーム、建築設計の自動化を後押しするか

ソフトバンクが生成AIで特許を大量出願、問われる知財部の役割

VLA内製へ、ローム買収に意欲

ルネサス、独自コアの車載マイコンで4年半ぶり新製品暗号処理専用のハードウエアアクセラレーターを搭載ほか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Seedanceが話題に：NVIDIAのAIガイドによるチップ設計がロボットの学習を忘れさせない

データセンター建設ブーム、建築設計の自動化を後押しするか

ソフトバンクが生成AIで特許を大量出願、問われる知財部の役割

VLA内製へ、ローム買収に意欲

ルネサス、独自コアの車載マイコンで4年半ぶり新製品 暗号処理専用のハードウエアアクセラレーターを搭載 ほか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ルネサス、独自コアの車載マイコンで4年半ぶり新製品暗号処理専用のハードウエアアクセラレーターを搭載ほか