要約: ビデオ理解には、再生中に世界状態を継続的に追跡し更新するモデルが必要です。既存のベンチマークは複数の次元でビデオ理解の評価を進展させてきましたが、モデルが世界状態を維持する様子を観察することは依然として不十分です。我々は VCBench を提案します。これは世界状態の維持能力を診断するための最小限のプローブとして追跡を再配置する、ストリーミングカウントのベンチマークです。我々はこの能力を、物体計数(現在見えている物体の追跡と、累積的な一意識別子の追跡)とイベント計数(瞬間的な動作の検出と、完全なアクティビティサイクルの追跡)に分解し、8つの細かなサブカテゴリーを形成します。VCBench には、フレームごとに注釈された 406 本の動画と、イベント発生瞬間 10,071 点およびオブジェクト状態変化瞬間が含まれ、タイムライン上の 4,576 のクエリポイントを伴う 1,000 のストリーミング QA ペアを生成します。ストリーミングの複数点クエリを通じて状態維持の軌跡を観察することにより、数値的精度、軌跡の一貫性、時間認識を診断する3つの補完的な指標を設計しました。主流のビデオ言語モデルの評価は、現在のモデルが時空間的な状態維持においてなお著しい欠陥を示しており、特に周期的なイベントカウントのようなタスクで苦戦していることを示しています。VCBench は、ビデオ理解システムにおける状態維持を測定し改善するための診断フレームワークを提供します。
VCBench: 長編動画における時空間状態維持のストリーミングカウントベンチマーク
arXiv cs.CV / 2026/3/16
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- VCBench は、長編動画において動画モデルが時空間的世界状態をどのように維持するかを診断するための、ストリーミングカウントベンチマークを導入します。
- 状態維持を、8つの細かなサブカテゴリーにわたって、対象物のカウント(可視オブジェクトと累積アイデンティティ)とイベントのカウント(瞬時のアクションと完全な活動サイクル)に分解します。
- データセットには、406本の動画と、10,071個のイベントモーメントおよびオブジェクト状態変化のフレームごとの注釈、さらに1,000件のストリーミング QA ペアと4,576のクエリポイントが含まれます。
- 評価の結果、主流のビデオ言語モデルは状態維持において重大な欠陥を示し、特に周期的なイベントカウントの面で課題が顕著であることが示され、ベンチマークの診断価値を浮き彫りにします。

