AI Navigate

VIGOR: 時系列生成整合のための動画幾何学ベースの報酬

arXiv cs.CV / 2026/3/18

📰 ニュースModels & Research

要点

  • 本論文は、動画拡散モデルが訓練中に明示的な幾何学的監督を欠くため、生成動画には物体の変形・空間的ドリフト・深度の不整合といったアーティファクトが生じることを指摘している。
  • 事前学習済みの幾何学的基盤モデルを活用して、フレーム間の再投影誤差を介したマルチビューの整合性を評価する、点ごとに計算される幾何ベースの報酬を導入する。これはピクセル空間での比較より頑健性を持つ。
  • 幾何学を意識したサンプリング戦略を提案し、低テクスチャおよび非セマンティック領域をフィルタリングして、信頼できる対応を持つ幾何学的に意味のある領域に評価を集中させる。
  • この報酬は、整合のための2つの経路を可能にする。1つは、双方向モデルの訓練後に監督付き微調整(SFT)または強化学習による微調整を施す方法、もう1つは、テスト時スケーリングを伴う因果動画モデルの推論時最適化である。これにより、広範な再訓練を要さず、堅牢性と実用的な利点を示す。

要旨: ビデオ拡散モデルは訓練時に明示的な幾何学的監視を欠くため、生成されたビデオにはオブジェクトの変形、空間的ドリフト、深度の不整合といった一貫性のないアーティファクトが生じます。これらの制限に対処するため、事前学習済みの幾何学的基盤モデルを活用して、フレーム間再投影誤差を通じて多視点の一貫性を評価する幾何ベースの報酬モデルを提案します。従来のピクセル空間で不整合を測定する幾何学的指標とは異なり、ピクセル強度が追加のノイズを導入する可能性があるため、我々のアプローチは点ごとに誤差を計算する方式であり、より物理的に根拠があり頑健な誤差指標を得ることができます。さらに、低テクスチャー領域や非意味的領域を除外し、幾何学的に意味のある領域で信頼性の高い対応関係を得ることに焦点を当てる幾何認識型のサンプリング戦略を導入し、頑健性を向上させます。本報酬モデルを用いて、ビデオ拡散モデルを二つの相補的な経路で整合させます。SFTまたは強化学習による双方向モデルのポスト訓練(ポストトレーニング)と、因果ビデオモデル(例:ストリーミングビデオ生成器)の推論時最適化を、テスト時スケーリングを用いて、報酬をパス検証器として活用します。実験結果は、設計の有効性を裏付けており、幾何学ベースの報酬が他のバリアントと比較して優れた頑健性を提供することを示しています。効率的な推論時スケーリングを実現することで、再訓練に多大な計算資源を必要とせずに、オープンソースのビデオモデルを強化する実用的な解決策を提供します。