要旨: 生成動画モデルの評価は、依然として未解決の問題です。構造的類似性指数(Structural Similarity Index Measure: SSIM)やピーク信号対雑音比(Peak Signal to Noise Ratio: PSNR)のような参照ベースの指標は、意味的な正しさよりも画素の忠実性を重視します。一方、フレシェ距離(Frechet Video Distance: FVD)は、物理的なもっともらしさよりも分布的なテクスチャを好みます。VBench~2.0 のような Binary Visual Question Answering(VQA)ベンチマークは、はいバイアスに陥りやすく、時間的な失敗を見落とす低解像度の監査者に依存しています。さらに、それらのプロンプトは一度に単一の次元を狙うため、必要とされる動画の数が増えるだけでなく、信頼できる結果が得られることを保証しません。
WorldJen はこれらの制限に直接対処します。Binary VQA は、ネイティブの動画解像度でフレームを受け取る VLM によって採点されるリッカート尺度の質問票へ置き換えます。動画生成コストは、最大 16 の品質次元を同時に検証するよう設計された、敵対的にキュレーションされたプロンプトを用いることで対処します。この枠組みは、相互に組み合わさった2つの貢献によって構築されています。第一に、盲検の人間による嗜好評価実験を行い、(キュレーションされたプロンプト imes 6 の最先端動画モデルのうち 50 個に対して 100% のペア被覆となるように)7 人のアノテータから得られる 2,696 件のペアワイズ注釈を蓄積します。アノテータ間の平均一致度は 66.9% を達成し、この研究により 3 段階構造を持つ人間のグラウンドトゥルース Bradley-Terry(BT)評価が確立されます。第二に、プロンプト固有・次元固有のリッカート質問票(次元あたり 10 問、合計 47,160 件の採点応答)を用いる VLM-as-a-judge 評価エンジンが、動画を判定し、人間によって確立された 3 段階の BT 評価構造を独立に再現します。VLM は Spearman を達成し、これは人間の結果との「ティア(段階)」一致として解釈されます。さらに 6 つの焦点化したアブレーション研究により、VLM 評価枠組みの頑健性が検証されます。
\hat{\rho}=1.000,~p=0.0014
WorldJen:生成動画モデルを対象としたエンドツーエンドの多次元ベンチマーク
arXiv cs.CV / 2026/5/6
💬 オピニオンModels & Research
要点
- WorldJenは、画素の忠実度に偏る指標や質感(分布)を重視するスコアだけでは不十分という課題に対し、生成動画モデルをより適切に評価するためのエンドツーエンドの多次元ベンチマークを提案します。
- 二値VQAを、ネイティブ解像度のフレームを用いてVLM(視と言語のモデル)が判定するLikert尺度の質問票に置き換え、意味的・時間的な品質をより確実に捉えることを目指しています。
- 評価コストを抑え、単一次元だけを狙うプロンプトに伴う動画数の増加を避けるため、最大16の品質次元を同時に試すよう設計された敵対的にキュレーションされたプロンプトを用います。
- ベンチマークは、ブラインドな人手嗜好評価(50プロンプト×6つの最先端動画モデルで、2,696件のペア比較注釈)に基づき、Bradley–Terryの3段階構造として人間のグラウンドトゥルースを構築します。
- VLMによるジャッジ評価エンジンは、人間の3段階構造を高い精度で再現し(Spearman ρ̂=1.000)、さらにアブレーション研究で評価枠組みの頑健性が検証されています。



