PhysLayer:深度に対応した物理を用いる言語ガイド付きレイヤー状アニメーション

arXiv cs.CV / 2026/4/28

📰 ニュースModels & Research

要点

  • PhysLayerは、静止画像から言語でガイドされた「深度対応のレイヤー状アニメーション」を生成するためのフレームワークであり、既存の画像→動画手法で起きがちな物理的に不自然な動きと、オブジェクトの力学的制御の弱さに対処することを狙っています。
  • 視覚基盤モデルを用いる言語ガイド付きシーン理解モジュールにより、物体の構成、素材特性、物理パラメータを分析して、シーンを深度ベースのレイヤーに分解します。
  • 深度対応のレイヤー物理シミュレーションは、2D剛体ダイナミクスを拡張して「深度方向の運動」や「透視に整合したスケーリング」を扱えるようにし、全3D復元なしでより現実的な相互作用を実現します。
  • 物理ガイド付き動画合成モジュールは、シミュレーションした軌道とシーンを踏まえたリライティングを統合し、時間的に一貫した結果とテキスト整合性を両立します。
  • 実験ではCLIP-Similarity(+2.2%)、FID(+9.3%)、Motion-FID(+3%)の改善に加え、人手評価で物理的もっともらしさ(+24%)とテキスト-動画の整合(+35%)が大きく向上したと報告されています。

要旨: 既存の画像から動画への生成手法は、しばしば物理的にもっともらしくない動きを生成し、対象のダイナミクスを正確に制御できません。先行研究では物理シミュレータを取り入れる試みもありますが、それらは2Dの平面運動に限定されており、深度に応じた空間的相互作用を捉えられていません。そこで本研究では、静止画像の言語誘導による、深度に応じたレイヤードアニメーションを可能にする新しい枠組みPhysLayerを提案します。PhysLayerは3つの主要コンポーネントから構成されます。第一に、視覚基盤モデルを用いる言語誘導のシーン理解モジュールです。これは、物体の構成、素材の特性、物理パラメータを解析することで、シーンを深度に基づくレイヤーに分解します。第二に、深度に応じたレイヤード物理シミュレーションです。これは、2Dの剛体ダイナミクスを深度のある運動と、遠近一貫のスケーリングへ拡張し、完全な3D再構成を必要とせずに、より現実的な物体の相互作用を可能にします。第三に、物理ガイド付き動画合成モジュールです。これは、シミュレートした軌跡を、シーンに応じたリライティングと統合することで、時間的に一貫した結果を実現します。実験結果は、CLIP-Similarity(+2.2\%)、FIDスコア(+9.3\%)、Motion-FID(+3\%)の向上を示しています。また、人手評価では物理的なもっともらしさ(+24\%)とテキスト-動画の整合(+35\%)が強化されました。本手法は、制御可能な画像アニメーションにおいて、物理的現実性と計算効率の実用的なバランスを提供します。