VEBench：実世界の動画編集に向けた大規模マルチモーダルモデルのベンチマーク

arXiv cs.CV / 2026/5/6

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

VEBenchは、実世界の動画編集における大規模マルチモーダルモデル（LMMs）を評価するための新しい包括的ベンチマークとして提案されており、編集知識の理解と運用（オペレーション）推論の両面を対象にします。
このベンチマークには、3.9K本の高品質な編集済み動画（257時間超）と、3,080件の人手で検証されたQAペアが含まれ、人間とAIの共同アノテーションを3ラウンド行うことで、時間軸の正確なラベル付けと意味整合性を担保しています。
タスクは2種類で、1つ目はマルチモーダルな手がかりから7種類の編集技法を識別する「編集技法認識」、2つ目は複数候補の中から関連クリップを選び時間的に位置特定することで実編集ワークフローを模倣する「編集操作シミュレーション」です。
独自モデル（例：Gemini-2.5-Pro）とオープンソースLMMの双方で実験した結果、モデルの性能は人間の編集に関する認知レベルと大きな隔たりがあることが示されます。
著者らはVEBenchを、より能力の高い知的動画編集システムの開発や、マルチモーダル環境での複雑推論に関する今後の研究を促すための基盤として位置づけています。