ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?
arXiv cs.AI / 3/30/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- アブストラクトは、現行の生成系ビジョンモデルが物理・因果・空間推論などの「論理的な難所」で失敗しやすい一方、既存評価が表面的指標や断片的ベンチに偏っているため実力を見誤る「performance mirage」が起きていると問題提起しています。
- これに対し、ViGoR-BenchはImage-to-ImageとVideoを横断する統一ベンチ、途中過程と最終結果を同時に評価するデュアルトラック、対人整合性を重視したエビデンス根拠の自動ジャッジ、認知次元へ分解する診断分析、の4つの工夫で推論能力をストレステストする枠組みを提案します。
- 20以上の主要モデルを用いた実験では、最先端モデルでも推論面に大きな欠損が残っていることが示され、ViGoRが次世代のビジョン推論の評価に重要だと結論づけています。
- デモは公開ページ(https://vincenthancoder.github.io/ViGoR-Bench/)で利用可能で、研究コミュニティが新しい評価手段として活用できる設計になっています。




