AesRM:専門家レベルのフィードバックで動画の美的品質を改善
arXiv cs.CV / 2026/5/1
📰 ニュースModels & Research
要点
- 本論文は、動画の美的要素を階層的ルーブリックとして捉え、Visual Aesthetics(VA)、Visual Fidelity(VF)、Visual Plausibility(VP)の3次元と、ショット構図など15の細かな評価基準に分解する枠組みを提案しています。
- 専門家がVA・VF・VPそれぞれを評価した、約2,500本の動画ペアからなる大規模な嗜好データとベンチマークAesVideo-Benchを構築しています。
- 報酬モデルとして、効率的な報酬信号のためにペアワイズ嗜好を直接予測するAesRM-Baseと、15基準に整合した推論(CoT)も生成して解釈可能性を高めるAesRM-CoTの2系統を提示しています。
- 学習は3段階の段階的手法(Atomic Aesthetic Capability Learning、Cold-Start、GRPO)に加え、CoTの自己整合性に基づく合成や、GRPOでのCoTベースのプロセス報酬設計を行い、評価精度とCoT品質を高めます。
- 実験では、既存のベースラインよりAesRMが複数の美学ベンチマークで優れ、位置バイアスが小さいなど頑健性も高いことが示され、さらにWan2.2をAesRMで調整することで既存の美的報酬モデルより明確な美的改善が得られると報告しています。




