動的生成動画における3D空間幾何学的一貫性の測定

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、FVD のような既存の指標が、動的に生成された動画における3Dの幾何歪みを捉えきれていないことを示している。
SGC を導入する。SGC は、局所的なカメラ姿勢推定を異なる静的サブ領域間で比較することにより、3D空間幾何学的一貫性を測定する指標である。
本手法は、動的領域と静的領域を分離し、静的背景を整合的なサブ領域に分割し、ピクセルごとの深度を予測し、局所姿勢間の発散を計算して不整合を定量化する。
実験では、実動画と生成動画を用いて、SGC が従来の指標が見逃す幾何学的欠陥を堅牢に検出することを示している。

要旨：最近の生成モデルは高忠実度の動画を生成できる一方で、しばしば3D 空間の幾何的不整合を示します。既存の評価手法はこれらの不整合を正確に特徴づけることができません。忠実度中心の指標であるFVDは幾何歪みに鈍感であり、整合性重視のベンチマークは正当な前景のダイナミクスをしばしばペナルティの対象とします。このギャップに対処するために、3D \textbf{S}patial \textbf{G}eometric \textbf{C}onsistencyを評価する指標としてSGCを導入します。私たちは、異なる局所領域から推定された複数のカメラ姿勢の発散を測定することで、幾何的一致性を定量化します。私たちのアプローチは、まず静的領域と動的領域を分離し、次に静的背景を空間的に一貫性のあるサブ領域に分割します。各ピクセルの深度を予測し、各サブ領域の局所的なカメラ姿勢を推定し、これらの姿勢の発散を計算して幾何的一致性を定量化します。実世界の動画と生成動画を対象とした実験は、SGCが幾何的不整合を頑健に定量化し、既存の指標で見逃されがちな重大な失敗を効果的に識別することを示しています。

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

完全ガイド: AIでお金を稼ぐ方法

Dev.to

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

Dev.to

脱メチル化

Dev.to

動的生成動画における3D空間幾何学的一貫性の測定

要点

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

完全ガイド: AIでお金を稼ぐ方法

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

脱メチル化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer