ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

arXiv cs.AI / 3/30/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • アブストラクトは、現行の生成系ビジョンモデルが物理・因果・空間推論などの「論理的な難所」で失敗しやすい一方、既存評価が表面的指標や断片的ベンチに偏っているため実力を見誤る「performance mirage」が起きていると問題提起しています。
  • これに対し、ViGoR-BenchはImage-to-ImageとVideoを横断する統一ベンチ、途中過程と最終結果を同時に評価するデュアルトラック、対人整合性を重視したエビデンス根拠の自動ジャッジ、認知次元へ分解する診断分析、の4つの工夫で推論能力をストレステストする枠組みを提案します。
  • 20以上の主要モデルを用いた実験では、最先端モデルでも推論面に大きな欠損が残っていることが示され、ViGoRが次世代のビジョン推論の評価に重要だと結論づけています。
  • デモは公開ページ(https://vincenthancoder.github.io/ViGoR-Bench/)で利用可能で、研究コミュニティが新しい評価手段として活用できる設計になっています。

Abstract

Beneath the stunning visual fidelity of modern AIGC models lies a "logical desert", where systems fail tasks that require physical, causal, or complex spatial reasoning. Current evaluations largely rely on superficial metrics or fragmented benchmarks, creating a ``performance mirage'' that overlooks the generative process. To address this, we introduce ViGoR Vision-G}nerative Reasoning-centric Benchmark), a unified framework designed to dismantle this mirage. ViGoR distinguishes itself through four key innovations: 1) holistic cross-modal coverage bridging Image-to-Image and Video tasks; 2) a dual-track mechanism evaluating both intermediate processes and final results; 3) an evidence-grounded automated judge ensuring high human alignment; and 4) granular diagnostic analysis that decomposes performance into fine-grained cognitive dimensions. Experiments on over 20 leading models reveal that even state-of-the-art systems harbor significant reasoning deficits, establishing ViGoR as a critical ``stress test'' for the next generation of intelligent vision models. The demo have been available at https://vincenthancoder.github.io/ViGoR-Bench/