AesRM:専門家レベルのフィードバックで動画の美的品質を改善

arXiv cs.CV / 2026/5/1

📰 ニュースModels & Research

要点

  • 本論文は、動画の美的要素を階層的ルーブリックとして捉え、Visual Aesthetics(VA)、Visual Fidelity(VF)、Visual Plausibility(VP)の3次元と、ショット構図など15の細かな評価基準に分解する枠組みを提案しています。
  • 専門家がVA・VF・VPそれぞれを評価した、約2,500本の動画ペアからなる大規模な嗜好データとベンチマークAesVideo-Benchを構築しています。
  • 報酬モデルとして、効率的な報酬信号のためにペアワイズ嗜好を直接予測するAesRM-Baseと、15基準に整合した推論(CoT)も生成して解釈可能性を高めるAesRM-CoTの2系統を提示しています。
  • 学習は3段階の段階的手法(Atomic Aesthetic Capability Learning、Cold-Start、GRPO)に加え、CoTの自己整合性に基づく合成や、GRPOでのCoTベースのプロセス報酬設計を行い、評価精度とCoT品質を高めます。
  • 実験では、既存のベースラインよりAesRMが複数の美学ベンチマークで優れ、位置バイアスが小さいなど頑健性も高いことが示され、さらにWan2.2をAesRMで調整することで既存の美的報酬モデルより明確な美的改善が得られると報告しています。

Abstract

写真のように見える動画生成の急速な進展にもかかわらず、映画制作のような実世界の応用では、視覚的な忠実度(ビジュアル・フィデリティ)を超えて、調和のとれた色やシネマティックなライティングといった動画の美的要素が必要です。これまでの視覚美学に関する研究は主に画像に焦点を当てており、美学を「視覚的な心地よさ」のような粗い定義にとどめることが多く、厳密かつ体系的な評価は十分になされていません。動画の美しさを改善するために、動画の美的要素を3つの中核的な次元、すなわちVisual Aesthetics(VA)、Visual Fidelity(VF)、Visual Plausibility(VP)に分解する階層的ルーブリックを提案します。さらに、ショット構図のような15の細かな評価基準で構成します。この枠組みにより、大規模な専門家アノテーション付き嗜好データセットと評価ベンチマークAesVideo-Benchを構築できます。AesVideo-Benchには、VA、VF、VPに関する専門家アノテーションを伴う約2500組の動画ペアが含まれます。次に、Video Aesthetic Reward Models(AesRM)のファミリーを構築します:AesRM-Baseは、これらの次元に関するペアワイズの嗜好を直接予測し、効率的な事後学習報酬を提供します。AesRM-CoTはさらに、15の基準すべてに整合するCoT(Chain of Thought)を生成し、評価の解釈可能性を高めます。具体的には、AesRMを3段階の段階的(progressive)スキームで学習します:(1)原子的な美的能力学習(Atomic Aesthetic Capability Learning)により、例えば中心に配置された構図を正確に識別するなど、AesRMの基本的な美学概念の認識を強化します;(2)コールドスタート(Cold-Start)で、モデルを構造化された推論プロトコルに整合させます;そして(3)GRPOにより、評価精度をさらに向上させます。AesRM-CoTを強化するために、さらに自己整合性に基づくCoT合成を提案し、CoTの品質を改善するとともに、GRPO中にCoTベースのプロセス報酬を設計します。大規模な実験により、AesRMが複数の美学ベンチマークでベースラインを上回り、位置バイアスが低いなど、より頑健であることが示されます。最後に、Wan2.2をAesRMに整合させ、既存の美学報酬モデルに比べて明確な美的向上が観察されます。