要旨: 動画理解の本質的な複雑さにより、性能向上が視覚知覚、言語的推論、または知識の事前(priors)に由来するのかを特定することは困難です。高レベル推論を評価するための多くのベンチマークが登場している一方で、動画理解を構成する本質的な基準は、ほとんど見過ごされてきました。本研究では、さらに別のベンチマークを導入するのではなく、動画理解の現在の状況を一度立ち止まって再検討します。本研究では、既存の評価を体系的に検証し、動画理解のための時空間的課題を抽出するための、持続可能な診断スイートであるVideo-Oasisを提供します。分析の結果、重要な発見が2点あります: (1) 既存のベンチマーク・サンプルの54%は、視覚入力や時間的文脈なしで解けること、(2) 残りのサンプルにおいては、最先端モデルの性能がランダム当て推量をわずかに上回る程度にとどまっていること。これらのギャップを埋めるために、頑健な動画理解に寄与するアルゴリズム設計上の選択肢を調査し、今後の研究に向けた実践的な指針を提示します。本研究が、ベンチマーク構築およびアーキテクチャ開発の厳密な評価のための標準的なガイドラインとして役立つことを願っています。コードは https://github.com/sejong-rcv/Video-Oasis で利用可能です。
Video-Oasis:映像理解の評価を再考する
arXiv cs.CV / 2026/4/1
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、「持続可能な診断スイート(sustainable diagnostic suite)」であるVideo-Oasisを提案し、現在の映像理解ベンチマークが時空間推論(spatio-temporal reasoning)をどのように測定しているかを再評価することを目的とする。
- 分析の結果、既存のベンチマークのサンプルの54%は、視覚入力や時間的文脈なしでも解けることがわかり、大きなベンチマーク汚染の可能性が示唆される。
- 残りのサンプルに対しては、最先端モデルの性能が報告上わずかにランダム推測を上回る程度であり、現在の評価が「真の映像理解」を反映していない可能性がある。
- Video-Oasisは、映像理解に内在する主要な時空間的課題を蒸留し、より頑健な性能につながるアルゴリズム設計上の選択が何かを調査する。
- 著者らは、将来のベンチマーク構築およびより厳密なアーキテクチャ評価のための実用的なガイドラインを提示しており、コードはGitHubで公開されている。




