VidNum-1.4K: 動画ベースの数値推論のための包括的ベンチマーク
arXiv cs.CV / 2026/4/7
📰 ニュースSignals & Early TrendsModels & Research
要点
- VidNum-1.4Kは、動画に基づく数値推論(時間的出来事、対象の永続性、合成的ロジック)を検証するための包括的なVideoQAベンチマークとして、1,379件の厳密に人手アノテーションされた動画-質問ペアを提供します。
- ベンチマークは3段階の階層構造を持ち、単なる視覚知覚から、算術演算・比較・論理推論を時間的証拠に基づいて行う「動画ベースの合成数値推論」へと難度を段階的に引き上げます。
- 複数のSOTA VLMを評価した結果、Gemini-3.1-proは約60%にかろうじて到達する一方、代表的なオープンソース系は25%〜45%に大きく低迷し、「推論ギャップ」が確認されたと報告しています。
- 著者らは、現行VLMが安定した「内部ワールドモデル」を欠いている可能性を示唆し、次世代の数値的動画インテリジェンスを診断する難度の高いテストベッドだと位置づけています。




