AnimationBench：キャラクター中心のアニメーションに動画生成モデルは有効か？

arXiv cs.CV / 2026/4/17

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

この論文では、キャラクター中心のアニメーション表現を対象にした画像から動画（I2V）生成を評価するための新しいベンチマーク「AnimationBench」を提案し、現実的な映像に偏った既存ベンチマークの限界を補います。
AnimationBenchは、アニメーションの12の基本原則とIP（知的財産）保護を測定可能な評価軸に落とし込み、さらに意味的一貫性、運動の妥当性、カメラ運動の一貫性といった広範な品質指標も追加します。
標準化されたクローズドセットによる再現可能な比較と、オープンドメインでの診断・カスタム分析を可能にする柔軟なオープンセットの両方に対応します。
視覚言語モデルを用いてスケーラブルな採点を実現し、実験では人間の評価との整合性が高いことと、リアリズム志向のベンチマークでは見落とされるアニメーション特有の差を明らかにできることを示します。

要旨: 動画生成は急速に進歩し、近年の手法ではますます説得力のあるアニメーション結果が得られるようになってきました。しかし、既存のベンチマーク――主として実写動画を対象に設計されたもの――では、様式化された見た目、誇張された動き、キャラクター中心の一貫性といった特徴を持つアニメーションスタイルの生成を評価するのが難しいという問題があります。さらに、それらは固定されたプロンプト集合と硬直的なパイプラインに依存しており、オープンドメインのコンテンツやカスタム評価ニーズに対する柔軟性が限られています。このギャップを埋めるために、私たちはAnimationBenchを提案します。これは、アニメーション画像から動画への生成（image-to-video generation）を評価するための最初の体系的ベンチマークです。 AnimationBenchは、アニメーションの12の基本原則とIP（知的財産）保存を、測定可能な評価次元へと具体化します。加えて、意味的一貫性、動きの合理性、カメラモーションの一貫性といった、より広範な品質次元も組み込みます。このベンチマークは、再現可能な比較のための標準化されたクローズドセット評価と、診断的な解析のための柔軟なオープンセット評価の両方をサポートし、スケーラブルな評価には視覚-言語モデルを活用します。大規模な実験により、AnimationBenchは人間の判断とよく一致し、実写志向のベンチマークでは見落とされがちな、アニメーション特有の品質の違いを明らかにすることが示されています。これにより、最先端のI2Vモデルに対する、より情報量が多く、かつ識別力の高い評価が実現されます。