VEFX-Bench:汎用的な動画編集とVFXのためのホリスティックなベンチマーク

arXiv cs.CL / 2026/4/20

📰 ニュースModels & Research

要点

  • 本論文は、9つの編集カテゴリ/32のサブカテゴリにまたがる5,049本の例を含む、人手によるラベル付けの大規模データセット「VEFX-Dataset」を提示し、編集品質を3つの独立した次元で評価できるようにします。
  • 「VEFX-Reward」は、元動画・編集指示・編集後動画を同時に扱い、動画編集品質をスコア化するための専用報酬モデルとして提案されます。
  • 「VEFX-Bench」は、編集システム同士を標準化して比較するための、300の厳選された動画プロンプト対からなるベンチマークとして公開されます。
  • 実験の結果、VEFX-Rewardは汎用のVLM判定や既存の報酬モデルよりも、人間の判断とより強く一致することが示されます。
  • VEFX-Rewardを用いたベンチマークでは、現行モデルにおいて「見た目のもっともらしさ」「指示追従」「編集の局所性(edit locality/edit exclusivity)」の間に継続的なギャップがあることが明らかになります。

Abstract

AI支援による動画生成がますます実用的になるにつれ、生成または撮影した映像をプロ仕様の要件に合わせて洗練するために、指示に導かれた動画編集が不可欠になってきています。しかし、この分野には、編集の全例を含む大規模な人手アノテーション付きデータセットと、編集システムを比較するための標準化された評価器の双方がいまだ欠けています。既存のリソースは、小規模であること、編集済みの出力が欠けていること、あるいは人間による品質ラベルがないことによって制約されており、現在の評価はしばしば高価な手作業による検品や、編集品質に特化していない汎用の視覚言語モデル判定に頼っています。そこで本研究では、VEFX-Datasetを導入します。VEFX-Datasetは、人手アノテーションによるデータセットであり、9つの主要な編集カテゴリと32のサブカテゴリにまたがる5,049の動画編集例を含みます。各例は、3つの独立した次元に沿ってラベル付けされています:Instruction Following(指示の追従)、Rendering Quality(レンダリング品質)、Edit Exclusivity(編集の局所性の排他性)。VEFX-Datasetに基づき、動画編集品質評価のために特化した報酬モデルであるVEFX-Rewardを提案します。VEFX-Rewardは、ソース動画、編集指示、編集後の動画を同時に処理し、順序回帰により次元ごとの品質スコアを予測します。さらに、編集システムを標準化された形で比較するための、300件の厳選された動画プロンプト対からなるベンチマークVEFX-Benchを公開します。実験の結果、VEFX-Rewardは、標準的なIQA/VQAメトリクスおよびグループ単位の嗜好評価の両方において、汎用VLM判定器や従来の報酬モデルよりも、人間の判断との一致度がより高いことが示されました。VEFX-Rewardを評価器として用いることで、代表的な商用およびオープンソースの動画編集システムをベンチマークし、現在のモデルにおいて、視覚的なもっともらしさ、指示の追従、編集の局所性の間に持続的なギャップが存在することを明らかにします。