VidNum-1.4K: A Comprehensive Benchmark for Video-based Numerical Reasoning
arXiv cs.CV / 4/7/2026
📰 NewsSignals & Early TrendsModels & Research
Key Points
- VidNum-1.4Kは、動画に基づく数値推論(時間的出来事、対象の永続性、合成的ロジック)を検証するための包括的なVideoQAベンチマークとして、1,379件の厳密に人手アノテーションされた動画-質問ペアを提供します。
- ベンチマークは3段階の階層構造を持ち、単なる視覚知覚から、算術演算・比較・論理推論を時間的証拠に基づいて行う「動画ベースの合成数値推論」へと難度を段階的に引き上げます。
- 複数のSOTA VLMを評価した結果、Gemini-3.1-proは約60%にかろうじて到達する一方、代表的なオープンソース系は25%〜45%に大きく低迷し、「推論ギャップ」が確認されたと報告しています。
- 著者らは、現行VLMが安定した「内部ワールドモデル」を欠いている可能性を示唆し、次世代の数値的動画インテリジェンスを診断する難度の高いテストベッドだと位置づけています。
Related Articles

Black Hat Asia
AI Business
v0.20.5
Ollama Releases

Inside Anthropic's Project Glasswing: The AI Model That Found Zero-Days in Every Major OS
Dev.to
Gemma 4 26B fabricated an entire code audit. I have the forensic evidence from the database.
Reddit r/LocalLLaMA
SoloEngine: Low-Code Agentic AI Development Platform with Native Support for Multi-Agent Collaboration, MCP, and Skill System
Dev.to