VGA-Bench: A Unified Benchmark and Multi-Model Framework for Video Aesthetics and Generation Quality Evaluation

arXiv cs.CV / 4/14/2026

💬 OpinionSignals & Early TrendsModels & Research

Key Points

  • VGA-Benchは、動画生成における「技術的な生成品質」だけでなく「美的(アート的)品質」も同時に評価するための統一ベンチマークを提案している。
  • ベンチマークはAesthetic Quality、Aesthetic Tagging、Generation Qualityの3階層タクソノミーで構造化され、複数の細かな下位次元に分解して体系的な採点を可能にしている。
  • 1,016の多様なプロンプトから12の動画生成モデルを用いて6万本超の大規模データセットを作成し、人手ラベル付き部分データと合わせて評価をスケールさせる設計になっている。
  • 美的品質推定(VAQA-Net)、美的タグ自動付与(VTag-Net)、生成・基本品質属性推定(VGQA-Net)の3つのマルチタスクNNアセッサを開発し、人間評価との整合性と効率性を実験で示している。
  • VGA-Benchは公開ベンチマークとしてリリースされ、コンテンツモデレーション、モデルデバッグ、生成モデル最適化などへの活用を想定している。

Abstract

The rapid advancement of AIGC-based video generation has underscored the critical need for comprehensive evaluation frameworks that go beyond traditional generation quality metrics to encompass aesthetic appeal. However, existing benchmarks remain largely focused on technical fidelity, leaving a significant gap in holistic assessment-particularly with respect to perceptual and artistic qualities. To address this limitation, we introduce VGA-Bench, a unified benchmark for joint evaluation of video generation quality and aesthetic quality. VGA-Bench is built upon a principled three-tier taxonomy: Aesthetic Quality, Aesthetic Tagging, and Generation Quality, each decomposed into multiple fine-grained sub-dimensions to enable systematic assessment. Guided by this taxonomy, we design 1,016 diverse prompts and generate a large-scale dataset of over 60,000 videos using 12 video generation models, ensuring broad coverage across content, style, and artifacts. To enable scalable and automated evaluation, we annotate a subset of the dataset via human labeling and develop three dedicated multi-task neural assessors: VAQA-Net for aesthetic quality prediction, VTag-Net for automatic aesthetic tagging, and VGQA-Net for generation and basic quality attributes. Extensive experiments demonstrate that our models achieve reliable alignment with human judgments, offering both accuracy and efficiency. We release VGA-Bench as a public benchmark to foster research in AIGC evaluation, with applications in content moderation, model debugging, and generative model optimization.