VGA-Bench: 動画の美的評価と生成品質評価のための統一ベンチマークおよびマルチモデル・フレームワーク
arXiv cs.CV / 2026/4/14
💬 オピニオンSignals & Early TrendsModels & Research
要点
- VGA-Benchは、動画生成における「技術的な生成品質」だけでなく「美的(アート的)品質」も同時に評価するための統一ベンチマークを提案している。
- ベンチマークはAesthetic Quality、美的タグ付与、Generation Qualityの3階層タクソノミーで構造化され、複数の細かな下位次元に分解して体系的な採点を可能にしている。
- 1,016の多様なプロンプトから12の動画生成モデルを用いて6万本超の大規模データセットを作成し、人手ラベル付き部分データと合わせて評価をスケールさせる設計になっている。
- 美的品質推定(VAQA-Net)、美的タグ自動付与(VTag-Net)、生成・基本品質属性推定(VGQA-Net)の3つのマルチタスクNNアセッサを開発し、人間評価との整合性と効率性を実験で示している。
- VGA-Benchは公開ベンチマークとしてリリースされ、コンテンツモデレーション、モデルデバッグ、生成モデル最適化などへの活用を想定している。




