要旨: 視覚言語モデル(VLM)に対する既存のベンチマークは主に、単純な単一アクションの動画における時空間理解、閉じた属性集合、限定されたエンティティ種別を評価する。しかし、現実世界の動画理解を特徴づける、多様なエンティティ間の自由形式で複数アクションにまたがる相互作用を捉えられていない。さらに、相補的な時空間の軸にわたってモデルの失敗を分析するための体系的な枠組みが欠けているため、包括的な評価が妨げられている。これらのギャップに対処するために、本論文ではVISTAを提案する。VISTAは、VLMにおけるオープンセット・多エンティティ・複数アクションの時空間理解のための、ビデオ相互作用時空間分析ベンチマークである。VISTAは動画を、解釈可能なエンティティ、その関連するアクション、そして関係(リレーショナル)ダイナミクスに分解し、関係・空間・時間の理解に関する多軸の診断と統一的な評価を可能にする。本ベンチマークは複数のデータセットを単一の相互作用を意識した分類体系(タクソノミー)へ統合し、さまざまなシーンと複雑さにまたがる約12Kの厳選された動画—クエリ対から構成される。我々はVISTA上で11の最先端VLMを体系的に評価し、タクソノミーに基づく集計性能を分解することで、従来の指標では見えにくい欠点や顕著な時空間バイアスを明らかにする。難易度の高いデータセットに対して、詳細なタクソノミー駆動の診断を提供することで、VISTAはモデル設計、事前学習戦略、評価プロトコルの前進を導くための、よりきめ細かな枠組みを提供する。総じてVISTAは、VLMにおける時空間理解に関する初めての、大規模な相互作用を意識した診断ベンチマークである。
VISTA:ビデオ相互作用の時空間解析ベンチマーク
arXiv cs.CV / 2026/5/5
📰 ニュースSignals & Early TrendsModels & Research
要点
- 既存のVLMベンチマークは、複雑さの低い単一アクション動画や閉じた属性セットを中心に評価しているため、現実の動画理解に見られる自由形式の多主体・多アクションの相互作用を十分に捉えられません。
- 本論文では、動画を「エンティティ」「関連するアクション」「関係性のダイナミクス」に分解し、複数の時空間軸で診断できるようにした相互作用対応の新しいベンチマークVISTAを提案します。
- VISTAは複数のデータセットを1つの相互作用対応タクソノミーに統合し、約1.2万件の厳選された動画クエリ対を、多様なシーンと難易度にわたって提供します。
- 著者らはSOTAのVLMを11モデル評価し、タクソノミーに基づく分析が従来の集計指標では見えにくい時空間のバイアスや失敗パターンを明らかにできることを示します。
- タクソノミー主導の詳細な診断を通じて、VISTAはビデオ言語の時空間推論におけるモデル設計、事前学習戦略、評価プロトコルの改善に役立つことを目指しています。




