要旨: 生成型ビデオモデルは高い視覚的忠実性を達成しますが、多くの場合、基本的な物理原理に違反してしまい、現実世界での信頼性を制限しています。これまでの物理の注入を目的とした試みは、条件付けに依存してきました。すなわち、フレーム単位の信号は領域固有であり短い時間幅に限られる一方、グローバルなテキストプロンプトは粗くノイジーで、細かなダイナミクスを捉えきれていません。私たちは、時間的に連続したフレームのチャンクに対して動作する、物理を意識したローカル条件付け手法 PhysVid を提案します。各チャンクには、状態・相互作用・制約を物理に基づく記述で注釈付けし、学習中にチャンクに応じたクロスアテンションによってそれをグローバルプロンプトと融合します。推論時には、局所的に関連する法則違反の記述である負の物理プロンプトを導入し、不 plausible な軌道から生成が外れるように誘導します。VideoPhy において、PhysVid はベースラインのビデオ生成器に比べて物理的常識スコアを \u2248 33\% 向上させ、さらに VideoPhy2 では最大 \u2248 8\% 向上します。これらの結果は、生成型ビデオにおいて局所的で物理を意識したガイダンスが物理的整合性を大きく高めることを示しており、物理に基づくビデオモデルへの一歩となります。
PhysVid:生成ビデオモデルのための物理を意識したローカル・コンディショニング
arXiv cs.AI / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在の生成ビデオモデルはしばしば見た目はもっともらしい一方で、物理的に誤った動きを生成してしまい、その結果として現実世界での信頼性が低下すると主張している。
- そこで、PhysVidという物理を意識したローカル・コンディショニング手法を提案する。これは、時間的に連続するフレームのチャンクに対して、物理に根ざした状態・相互作用・制約の記述を付加し、学習時にはチャンク対応のクロスアテンションによってグローバルなプロンプトと融合する。
- 推論時には、モデルを不自然な軌道から遠ざけるために、局所的に関係する法則違反を記述した「ネガティブ・フィジックス・プロンプト」を用いる。
- VideoPhyに関する実験では、ベースラインの生成器に比べて物理的常識スコアが約33%改善し、VideoPhy2では最大8%の向上が見られた。
- 著者らは、局所的で物理に根ざしたガイダンスが物理的な妥当性を確かに高めることを結論づけており、物理に根ざしたビデオ生成に向けた一歩であるとしている。




