SLVMEval:テキストから長尺動画生成のための合成メタ評価ベンチマーク
arXiv cs.CV / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テキストから長尺動画(T2V)の評価システムが、約3時間(10,486秒)程度までの動画品質をどれほど適切に測定できるかを検証するための合成メタ評価ベンチマーク「SLVMEval」を提案する。
- これは、10の側面に対して制御された劣化を加えることで、密な動画キャプションデータセットから「高品質 vs 低品質」の動画ペアを生成するペアワイズ比較フレームワークを用いる。
- クラウドソーシングにより、人間にとって明確に知覚できる劣化ケースのみを残し、人間が確実に判断できる内容をベンチマークが反映するようにしている。
- 実験では、人間がより良い長尺動画を84.7%〜96.8%の精度で選択する一方で、既存の評価システムは10の側面のうち9つで人間の判断に劣っており、信頼性のギャップが示される。
- これらの結果は、現在のT2V評価パイプラインが、特に複数の品質次元にまたがって長尺動画の品質を信頼性高く順位付けできていない可能性を示している。




