Abstract
フローマッチング型の動画生成器は、時間的に一貫した高忠実度の出力を生成できる一方で、再構成目的が「物理的に整合したダイナミクス」と「不可能なダイナミクス」を区別せず、フレームごとの逸脱に罰則を与えるため、初歩的な物理法則を日常的に破ってしまいます。コントラストiveフローマッチングは、条件の異なる速度場軌道を互いに引き離すことで原理的な解決策を提供しますが、テキスト条件付き動画設定には本質的な障害があることを私たちは見出しました。それが「セマンティクスと物理の絡み合い」です。自然言語によるプロンプトは、シーンの内容と物理的挙動を結びつけるため、素朴なネガティブサンプリングは、ポジティブサンプルの速度場と多くが重なってしまう条件を引いてしまい、その結果、コントラストive勾配がフローマッチングの目的に対して直接的に逆方向に働いてしまいます。私たちはこの勾配の競合を形式化し、コントラストive学習が役に立つ場合と害になる場合を明らかにする、正確な整合条件を導出します。この分析に導かれて、DiReCT(Disentangled Regularization of Contrastive Trajectories)を提案します。これは、コントラストive信号を2つの相補的なスケールに分解する軽量なポストトレーニング手法です。すなわち、意味的に遠い領域から、分割に排他的なネガティブを引き出して干渉のない大域的な軌道分離を実現するマクロ・コントラストive項と、ポジティブサンプルと同じシーンの意味論を共有しつつ、物理的挙動のうち単一の軸(LLMによって摂動された軸)に沿ってのみ異なるハードネガティブを構成するマイクロ・コントラストive項です。これらは、運動学、力、材料、相互作用、および大きさをまたぎます。さらに、速度空間における分布的正則化により、事前学習済みの視覚品質の壊滅的な忘却を防ぎます。Wan 2.1-1.3Bに適用したところ、学習時間を増やすことなく、VideoPhyにおける物理的常識スコアがベースラインおよびSFTに比べてそれぞれ16.7%および11.3%向上しました。