OMIBench:大規模ビジョン言語モデルによるオリンピックレベルのマルチ画像推論ベンチマーク
arXiv cs.CV / 2026/4/23
📰 ニュースModels & Research
要点
- この論文では、大規模ビジョン言語モデル(LVLM)のためのオリンピックレベルのマルチ画像推論を評価する新しいベンチマークOMIBenchが提案されています。
- 従来のベンチマークが主に単一画像の分析に偏りがちだった点を補い、必要な根拠が複数画像に分散されていることを前提に問題が設計されています。
- OMIBenchは生物・化学・数学・物理のオリンピック問題を含み、手作業で注釈された推論(ラショナール)と、正確一致および意味一致の両方に対応する評価プロトコルを備えています。
- 実験では既存モデル間に大きな性能差が見られ、最強クラスのLVLM(例:Gemini-3-Pro)でもベンチマークで約50%にとどまることが示されています。
- 著者らは、OMIBenchをLVLMのマルチ画像推論能力を研究・改善するための特化型リソースとして位置付けています。




