CCTVBench:対比的整合性を用いた交通映像QAベンチマーク(マルチモーダルLLM向け)

arXiv cs.CV / 2026/4/23

📰 ニュースModels & Research

要点

  • CCTVBenchは、実際の事故映像と反実仮想(カウンターファクト)映像を対にして、「対比的整合性」を評価する交通分野のVideoQAベンチマークであり、モデルが真の危険を検出すると同時にもっともらしい誤り仮説を確実に退けられるかを検証します。
  • ベンチマークは映像と質問のクアドルプル(4点セット)に対して構造化された判断パターンを用い、正の取りこぼし、正の取り違え、負の幻覚、相互排他性違反といった失敗要因を切り分ける診断機能を提供します。
  • 実験では、モデルが通常の1事例QA指標では高得点でも、クアドルプル単位の対比的整合性では大きく持続するギャップがあることが示され、とりわけ「該当なし(none-of-the-above)」の棄却が主要なボトルネックになります。
  • 論文では、推論時に意味的に排他的な対応映像をコントラスト入力として用いる対比的デコーディング手法C-TCDを提案し、事例レベルのQAと対比的整合性の両方を改善します。
  • CCTVBenchは評価において「映像の整合性」と「質問の整合性」を分離し、安全性が重要な推論でモデルがどこで失敗するのかをより実用的に分析できるようにします。

概要: 安全性に重大な影響を及ぼす交通推論では、対照的整合性が必要です。すなわち、事故が起きたときに真の危険をモデルが検出できなければならず、また、ほぼ同一の反実仮想(カウンターファクト)の場面の下で、尤もらしいが誤った仮説を確実に退けなければなりません。私たちは、CCTVBench を提案します。これは、実際の事故動画のペアと、世界モデルにより生成された反実仮想の対応動画を土台とし、最小限の違いで互いに排他的な仮説質問を組み合わせて構築した、対照的整合性(Contrastive Consistency)の交通ビデオQAベンチマークです。CCTVBench は、各ビデオ質問の4つ組(クアドラプル)に対して単一の構造化された意思決定パターンを強制し、失敗を、正の脱落(positive omission)、正の取り違え(positive swap)、負の幻覚(negative hallucination)、および相互排他性の違反(mutual-exclusivity violation)に分解する、実行可能な診断を提供します。さらに、動画の整合性と質問の整合性を切り分けます。オープンソースおよびプロプライエタリな動画LLMにまたがる実験により、標準的な個別(インスタンス単位)のQA指標と、4つ組レベルの対照的整合性の間には、大きく持続するギャップがあることが明らかになりました。加えて、「none-of-the-above(該当なし)」の棄却が信頼できないことが主要なボトルネックであることを示します。最後に、推論時に意味的に排他的な対応動画を対照入力として活用する、対照的復号(contrastive decoding)アプローチである C-TCD を導入し、個別レベルのQAと対照的整合性の両方を改善します。