AI Navigate

動的生成動画における3D空間幾何学的一貫性の測定

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、FVD のような既存の指標が、動的に生成された動画における3Dの幾何歪みを捉えきれていないことを示している。
  • SGC を導入する。SGC は、局所的なカメラ姿勢推定を異なる静的サブ領域間で比較することにより、3D空間幾何学的一貫性を測定する指標である。
  • 本手法は、動的領域と静的領域を分離し、静的背景を整合的なサブ領域に分割し、ピクセルごとの深度を予測し、局所姿勢間の発散を計算して不整合を定量化する。
  • 実験では、実動画と生成動画を用いて、SGC が従来の指標が見逃す幾何学的欠陥を堅牢に検出することを示している。

要旨:最近の生成モデルは高忠実度の動画を生成できる一方で、しばしば3D 空間の幾何的不整合を示します。既存の評価手法はこれらの不整合を正確に特徴づけることができません。忠実度中心の指標であるFVDは幾何歪みに鈍感であり、整合性重視のベンチマークは正当な前景のダイナミクスをしばしばペナルティの対象とします。このギャップに対処するために、3D \textbf{S}patial \textbf{G}eometric \textbf{C}onsistencyを評価する指標としてSGCを導入します。私たちは、異なる局所領域から推定された複数のカメラ姿勢の発散を測定することで、幾何的一致性を定量化します。私たちのアプローチは、まず静的領域と動的領域を分離し、次に静的背景を空間的に一貫性のあるサブ領域に分割します。各ピクセルの深度を予測し、各サブ領域の局所的なカメラ姿勢を推定し、これらの姿勢の発散を計算して幾何的一致性を定量化します。実世界の動画と生成動画を対象とした実験は、SGCが幾何的不整合を頑健に定量化し、既存の指標で見逃されがちな重大な失敗を効果的に識別することを示しています。