GenVideoLens: AI生成動画検出における LVLM の不足点はどこにあるのか

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • GenVideoLens は、AI生成動画検出における LVLM を細粒度で評価するベンチマークであり、二値分類ではなく次元別の評価を可能にします。
  • このベンチマークには、高度に偽装された AI生成動画400本と100本の実動画が含まれ、専門家によって知覚的・光学的・物理的・時間的手掛かりにわたる15の真正性次元に基づく注釈が付されています。
  • 11 の代表的な LVLM を評価したところ、知覚的手掛かりでは比較的良好な性能を示す一方、光学的一貫性・物理的相互作用・時間的因果推論には苦戦していることが明らかになりました。
  • モデル間で性能にはばらつきがあり、特定の手掛かりにおいては小型のオープンソースモデルが強力な商用モデルを上回ることもあります。
  • 時間的摂動実験は LVLM が時間情報を十分に活用していないことを示しており、AI生成動画検出器の今後の改善に向けた診断的手掛かりを提供します。

概要: 近年、AI生成の動画はますます現実的で高度になっています。大規模視覚言語モデル(LVLMs)はこのようなコンテンツを検出する高い潜在能力を示しています。しかし、既存の評価プロトコルは大半を二値分類問題として扱い、全体精度といった粗い指標に依存しているため、LVLMがどこで成功し、どこで失敗しているかを把握する手掛かりは限られています。この制限を解消するため、GenVideoLensを導入します。これは、AI生成動画検出におけるLVLMの能力を次元ごとに評価する細粒度のベンチマークです。このベンチマークには、専門家によって15の真正性次元にわたり注釈付けされた、400件の高度に偽装されたAI生成動画と100件の実動画が含まれます。これらは知覚的、光学的、物理的、時間的手掛かりを含みます。私たちは、このベンチマーク上で11種類の代表的なLVLMを評価します。私たちの分析は、顕著な次元間の偏りを明らかにします。LVLMは知覚的手掛かりには比較的良好な性能を発揮しますが、光学的な一貫性、物理的相互作用、時間的因果推論には苦戦します。モデルの性能は次元ごとにも大きく異なり、特定の真正性手掛かりでは、小さなオープンソースモデルが時に強力な商用モデルを上回ることがあります。時間的摂動実験は、現在のLVLMが時間情報を限定的にしか活用していないことをさらに示しています。全体として、GenVideoLensはLVLMの挙動に関する診断的洞察を提供し、主要な能力ギャップを明らかにするとともに、将来のAI生成動画検出システムの改善の指針を示します。