広告

ViGoR-Bench:視覚生成モデルはゼロショットの視覚推論器からどのくらい遠いのか?

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • アブストラクトは、現行の生成系ビジョンモデルが物理・因果・空間推論などの「論理的な難所」で失敗しやすい一方、既存評価が表面的指標や断片的ベンチに偏っているため実力を見誤る「performance mirage」が起きていると問題提起しています。
  • これに対し、ViGoR-BenchはImage-to-ImageとVideoを横断する統一ベンチ、途中過程と最終結果を同時に評価するデュアルトラック、対人整合性を重視したエビデンス根拠の自動ジャッジ、認知次元へ分解する診断分析、の4つの工夫で推論能力をストレステストする枠組みを提案します。
  • 20以上の主要モデルを用いた実験では、最先端モデルでも推論面に大きな欠損が残っていることが示され、ViGoRが次世代のビジョン推論の評価に重要だと結論づけています。
  • デモは公開ページ(https://vincenthancoder.github.io/ViGoR-Bench/)で利用可能で、研究コミュニティが新しい評価手段として活用できる設計になっています。

Abstract

現代のAIGCモデルが持つ見事な視覚的忠実性の下には、「論理の砂漠」があります。そこでは、物理的・因果的・あるいは複雑な空間推論を必要とする課題に対して、システムが失敗してしまいます。現在の評価の多くは、表面的な指標や分断されたベンチマークに大きく依存しており、生成プロセスを見落とす「パフォーマンスの蜃気楼」を生み出しています。これに対処するために、本研究ではViGoR Vision-G}nerative Reasoning-centric Benchmark(ViGoR Vision-G}nerative Reasoning中心型ベンチマーク)を導入します。これは、この蜃気楼を打ち壊すことを目的とした統一的な枠組みです。ViGoRは、次の4つの主要な革新によって際立っています。1) Image-to-ImageタスクとVideoタスクをつなぐ、全体的なクロスモーダルのカバレッジ。2) 中間プロセスと最終結果の両方を評価するデュアルトラック機構。3) 人間との整合性を高める、エビデンスに基づく自動ジャッジ。4) パフォーマンスを微細な認知次元へと分解する、きめ細かな診断的分析。20以上の主要モデルに対する実験の結果、最新のシステムでさえ顕著な推論能力の欠落を抱えていることが明らかになり、ViGoRが次世代の知的視覚モデルにとって重要な「ストレステスト」として機能することを示しています。デモは https://vincenthancoder.github.io/ViGoR-Bench/ で利用可能です。

広告