要旨: 現代の動画拡散モデルは外観の合成において優れていますが、物理的な一貫性については依然として課題があります。物体が漂ってしまい、衝突では現実的な跳ね返りが欠け、素材の反応もその根本となる性質と一致しないことが少なくありません。本研究では、動画生成に連続的で解釈可能な、物理に根ざした制御を導入する枠組みPhyCoを提案します。私たちの方法は、次の3つの主要構成要素を統合します。 (i) 100K超のフォトリアルなシミュレーション動画からなる大規模データセットであり、摩擦、反発係数、変形、力を多様な状況にわたって体系的に変化させます。 (ii) ピクセル整合された物理特性マップを条件とするControlNetを用いて、事前学習済みの拡散モデルを物理により監督された微調整で強化します。 (iii) VLMに導かれた報酬最適化であり、微調整した視覚言語モデルが、生成された動画を対象とした物理クエリで評価し、微分可能なフィードバックを提供します。これらの組み合わせにより、推論時にシミュレータや幾何再構成を一切行わずに、物理属性の変化を通じて物理的に整合し、かつ制御可能な出力を生成モデルが作り出せるようになります。Physics-IQベンチマークでは、PhyCoは強力なベースラインに比べて物理的な現実味を大幅に向上させ、さらに人手による研究により、物理属性に対するより明確で忠実な制御が裏付けられました。本研究の結果は、合成環境での学習を超えて一般化する、物理的に一貫した、制御可能な生成動画モデルに向けたスケーラブルな道筋を示しています。
PhyCo:物理的事前知識を制御可能に学習する生成モーション
arXiv cs.CV / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- PhyCoは、物理一貫性のない動画生成の課題(物体のドリフト、衝突の不自然な跳ね返り、素材応答の不一致など)を改善することを目的とした新しいフレームワークです。
- 同手法は、物理量(摩擦係数・反発係数・変形・力)を体系的に変化させたフォトリアルなシミュレーション動画100K超のデータセット、ピクセル整合した物理プロパティマップを条件にしたControlNetによる物理教師あり微調整、さらにVLMによる報酬最適化(物理に関する質問で生成動画を評価し微分可能なフィードバックを返す)を組み合わせています。
- これにより、推論時にシミュレータや幾何再構成を必要とせず、制御可能で物理的に整合した動きを生成できるとしています。
- Physics-IQベンチマークでは強力なベースラインに比べて物理的リアリティが大きく向上し、人手評価でも物理属性に対するより忠実で分かりやすい制御が確認されたと報告されています。
- 全体として、本研究は訓練で用いた合成環境を越えて一般化できる、物理的に一貫した制御可能な生成動画モデルへのスケーラブルな道筋を示しています。




