WorldJen：生成動画モデルを対象としたエンドツーエンドの多次元ベンチマーク

arXiv cs.CV / 2026/5/6

💬 オピニオンModels & Research

共有:

要点

WorldJenは、画素の忠実度に偏る指標や質感（分布）を重視するスコアだけでは不十分という課題に対し、生成動画モデルをより適切に評価するためのエンドツーエンドの多次元ベンチマークを提案します。
二値VQAを、ネイティブ解像度のフレームを用いてVLM（視と言語のモデル）が判定するLikert尺度の質問票に置き換え、意味的・時間的な品質をより確実に捉えることを目指しています。
評価コストを抑え、単一次元だけを狙うプロンプトに伴う動画数の増加を避けるため、最大16の品質次元を同時に試すよう設計された敵対的にキュレーションされたプロンプトを用います。
ベンチマークは、ブラインドな人手嗜好評価（50プロンプト×6つの最先端動画モデルで、2,696件のペア比較注釈）に基づき、Bradley–Terryの3段階構造として人間のグラウンドトゥルースを構築します。
VLMによるジャッジ評価エンジンは、人間の3段階構造を高い精度で再現し（Spearman ρ̂=1.000）、さらにアブレーション研究で評価枠組みの頑健性が検証されています。

要旨: 生成動画モデルの評価は、依然として未解決の問題です。構造的類似性指数（Structural Similarity Index Measure: SSIM）やピーク信号対雑音比（Peak Signal to Noise Ratio: PSNR）のような参照ベースの指標は、意味的な正しさよりも画素の忠実性を重視します。一方、フレシェ距離（Frechet Video Distance: FVD）は、物理的なもっともらしさよりも分布的なテクスチャを好みます。VBench~2.0 のような Binary Visual Question Answering（VQA）ベンチマークは、はいバイアスに陥りやすく、時間的な失敗を見落とす低解像度の監査者に依存しています。さらに、それらのプロンプトは一度に単一の次元を狙うため、必要とされる動画の数が増えるだけでなく、信頼できる結果が得られることを保証しません。
WorldJen はこれらの制限に直接対処します。Binary VQA は、ネイティブの動画解像度でフレームを受け取る VLM によって採点されるリッカート尺度の質問票へ置き換えます。動画生成コストは、最大 16 の品質次元を同時に検証するよう設計された、敵対的にキュレーションされたプロンプトを用いることで対処します。この枠組みは、相互に組み合わさった2つの貢献によって構築されています。第一に、盲検の人間による嗜好評価実験を行い、（キュレーションされたプロンプト $imes$ 6 の最先端動画モデルのうち 50 個に対して 100% のペア被覆となるように）7 人のアノテータから得られる 2,696 件のペアワイズ注釈を蓄積します。アノテータ間の平均一致度は 66.9% を達成し、この研究により 3 段階構造を持つ人間のグラウンドトゥルース Bradley-Terry（BT）評価が確立されます。第二に、プロンプト固有・次元固有のリッカート質問票（次元あたり 10 問、合計 47,160 件の採点応答）を用いる VLM-as-a-judge 評価エンジンが、動画を判定し、人間によって確立された 3 段階の BT 評価構造を独立に再現します。VLM は Spearman $\hat{\rho}=1.000,~p=0.0014$ を達成し、これは人間の結果との「ティア（段階）」一致として解釈されます。さらに 6 つの焦点化したアブレーション研究により、VLM 評価枠組みの頑健性が検証されます。

DXは継続、AI活用の新需要を ITサービス（SIer）の業界地図

日経XTECH

Google、Gemma 4向け「Multi-Token Prediction（MTP）Drafters」をリリース——品質を落とさず最大3倍高速推論

MarkTechPost

Solidity LMがOpusを上回る

Reddit r/LocalLLaMA

量子・重力・古典相互作用を一つの作用で扱う方程式と、その実装メモ

Qiita

Qwen 3.6 27B の量子化（BF16、Q8_0、Q6_K、Q5_K_XL、Q4_K_XL、IQ4_XS、IQ3_XXS…）における品質比較

Reddit r/LocalLLaMA

WorldJen：生成動画モデルを対象としたエンドツーエンドの多次元ベンチマーク

要点

関連記事

DXは継続、AI活用の新需要を ITサービス（SIer）の業界地図

Google、Gemma 4向け「Multi-Token Prediction（MTP）Drafters」をリリース——品質を落とさず最大3倍高速推論

Solidity LMがOpusを上回る

量子・重力・古典相互作用を一つの作用で扱う方程式と、その実装メモ

Qwen 3.6 27B の量子化（BF16、Q8_0、Q6_K、Q5_K_XL、Q4_K_XL、IQ4_XS、IQ3_XXS…）における品質比較

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer