SLVMEval：テキストから長尺動画生成のための合成メタ評価ベンチマーク

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキストから長尺動画（T2V）の評価システムが、約3時間（10,486秒）程度までの動画品質をどれほど適切に測定できるかを検証するための合成メタ評価ベンチマーク「SLVMEval」を提案する。
これは、10の側面に対して制御された劣化を加えることで、密な動画キャプションデータセットから「高品質 vs 低品質」の動画ペアを生成するペアワイズ比較フレームワークを用いる。
クラウドソーシングにより、人間にとって明確に知覚できる劣化ケースのみを残し、人間が確実に判断できる内容をベンチマークが反映するようにしている。
実験では、人間がより良い長尺動画を84.7%〜96.8%の精度で選択する一方で、既存の評価システムは10の側面のうち9つで人間の判断に劣っており、信頼性のギャップが示される。
これらの結果は、現在のT2V評価パイプラインが、特に複数の品質次元にまたがって長尺動画の品質を信頼性高く順位付けできていない可能性を示している。

Abstract

本論文は、テキストから動画（T2V）評価システムをメタ評価するためのベンチマークである合成ロングビデオメタ評価（SLVMEval）を提案する。提案するSLVMEvalベンチマークは、最大10,486秒（約3時間）までの動画に対して、これらのシステムを評価することに焦点を当てている。ベンチマークが狙うのは基本的な要件、すなわち、人間が評価しやすい状況において、これらのシステムが動画の品質を正確に評価できるかどうかである。我々は、ペアワイズ比較に基づくメタ評価フレームワークを採用する。密な動画キャプション付けデータセットを土台として、元の動画を合成的に劣化させ、10の異なる側面にわたって制御された「高品質対低品質」のペアを作成する。次に、クラウドソーシングを用いて、その劣化が明確に知覚できるペアだけを選別し、保持することで、有効な最終テストベッドを構築する。このテストベッドを用いて、これらのペアのランキングにおける既存の評価システムの信頼性を評価する。実験結果は、人間の評価者がより良いロングビデオを84.7%-96.8%の精度で識別でき、10のうち9つの側面では、これらのシステムの精度が人間の評価に及ばないことを示しており、テキストからロングビデオの評価における弱点が明らかになる。