Motion Forcing: 運動ダイナミクスにおける堅牢な動画生成の分離型フレームワーク
arXiv cs.CV / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、動画生成における3つの難題(高品質な視覚表現、物理的一貫性、制御性)が、衝突や密集した交通のような複雑なシーンで劣化することを指摘する。
- 階層的な \textbf{``Point-Shape-Appearance''} パラダイムを用いて、物理的推論と視覚合成を分離するデカップル型フレームワーク \textbf{Motion Forcing} を提案する。
- 訓練戦略として \textbf{Masked Point Recovery} を提案し、入力アンカーをマスクして完全な動的深度を再構成させることで、慣性などの潜在的な物理法則の学習を促進する。
- 自動運転ベンチマークや物理・ロボティクスのタスクにおける大規模実験により、Motion Forcing は最先端のベースラインを上回り、難易度の高いシーンでも三難の安定性を維持することを示す。
動画生成の最終的な目標は、基本的なトリレンマを満たすことである:高い視覚品質、厳密な物理的一貫性、そして正確な制御性を実現すること。最近のモデルは、単純で孤立したシナリオではこのバランスを維持できることがある一方で、シーンの複雑さが増すとこの均衡は脆弱となり、衝突や密集した交通のような状況でしばしば崩れることを観察している。これに対処するため、\textbf{Motion Forcing} を導入する。これは、複雑な生成タスクにおいてもこのトリレンマを安定化させるよう設計されたフレームワークである。私たちの核心的な洞察は、階層的な \textbf{``Point-Shape-Appearance''} パラダイムを介して、物理的推論と視覚合成を明示的に分離することである。このアプローチは、生成を検証可能な段階へ分解する:複雑なダイナミクスを疎らな幾何アンカーとしてモデル化する(\textbf{Point})、それらを3Dジオメトリを明示的に解決する動的深度マップへ拡張する(\textbf{Shape})、そして高忠実なテクスチャを最終的にレンダリングする(\textbf{Appearance})。さらに、堅牢な物理理解を促進するため、\textbf{Masked Point Recovery} 戦略を採用する。訓練中に入力アンカーをランダムにマスクし、完全な動的深度の再構成を強制することで、モデルは受動的なパターンマッチングを超えて潜在的な物理法則(例:慣性)を学習し、欠落した軌跡を推定するよう促される。自動運転ベンチマークにおける広範な実験は、Motion Forcing が最先端のベースラインを著しく上回り、複雑なシーンを横断してトリレンマの安定性を維持することを示している。物理学とロボティクスの評価は、我々のフレームワークの一般性をさらに確認している。

