VidNum-1.4K: 動画ベースの数値推論のための包括的ベンチマーク

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsModels & Research

要点

  • VidNum-1.4Kは、動画に基づく数値推論(時間的出来事、対象の永続性、合成的ロジック)を検証するための包括的なVideoQAベンチマークとして、1,379件の厳密に人手アノテーションされた動画-質問ペアを提供します。
  • ベンチマークは3段階の階層構造を持ち、単なる視覚知覚から、算術演算・比較・論理推論を時間的証拠に基づいて行う「動画ベースの合成数値推論」へと難度を段階的に引き上げます。
  • 複数のSOTA VLMを評価した結果、Gemini-3.1-proは約60%にかろうじて到達する一方、代表的なオープンソース系は25%〜45%に大きく低迷し、「推論ギャップ」が確認されたと報告しています。
  • 著者らは、現行VLMが安定した「内部ワールドモデル」を欠いている可能性を示唆し、次世代の数値的動画インテリジェンスを診断する難度の高いテストベッドだと位置づけています。

Abstract

動画ベースの数値推論は、映像と言語モデル(VLMs)が実世界のダイナミクスを本当に「理解」しているかどうかを検証するための、最も優れた試験場です。正確な数値的な演繹には、単なる表面的なパターン照合を超えて、時間的事象、対象の永続性(object permanence)、合成的な論理(compositional logic)を深く把握する必要があるからです。しかし、既存のベンチマークはしばしば反復的な運動のような狭い領域に限定されているか、単純な数え上げを単なる表面的な回帰タスクとして扱うため、実世界のマルチメディア内容に内在する複雑さの中での多段階の数値論理を評価できていません。私たちは、対象・行為・事象の数量化を含む、非常に多様な環境にまたがって、真の数値推論を評価するための包括的なVideoQAベンチマークであるVidNum-1.4Kを提案します。VidNum-1.4Kは、厳密に人手で注釈付けされた1,379個の動画-質問ペアから構成されており、動画に基づく数値推論を評価するよう設計されています。VidNum-1.4Kは、直接の視覚認識から動画ベースの合成的な数値推論へと進化する、3レベルの階層構造によって独自に設計されています。このベンチマークでは、モデルが時間的な根拠に基づいて、算術演算・比較・論理的演繹を実行することが求められます。多様な最先端VLM群に対する評価の結果、注目すべき推論ギャップが明らかになりました。Gemini-3.1-proはわずか60%の精度閾値にかろうじて到達する一方で、代表的なオープンソースのファミリは25%〜45%の範囲で大きく苦戦しています。これらの結果は、現在のVLMが依然として安定した「内部の世界モデル(internal world model)」を備えていないことを示しており、VidNum-1.4Kは次世代の数値的な動画知能のための、要求水準の高い診断用テストベッドとして位置づけられます。