COHERENCE:インターリーブされたマルチモーダル文脈におけるきめ細かな画像-テキスト整合性のベンチマーク
arXiv cs.CV / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、単一画像や複数画像の理解にとどまらず、インターリーブされたマルチモーダル文脈における画像とテキストのきめ細かな対応関係を評価するための新しいベンチマークCOHERENCEを提案しています。
- 文書の読み取りなどの現実的な状況を想定し、混在した画像-テキスト列の中で、関連する視覚情報を特定のテキスト根拠と対応づけ、きめ細かな整合性を確立する能力を問います。
- COHERENCEは4つの代表的な領域をカバーし、正確な画像-テキスト対応関係の復元をテストするための高品質な設問6,161問を含みます。
- 6種類の誤り分析を行うことで、現行のMLLMが欠けている特定の能力に、インターリーブされた画像-テキスト理解における失敗をきめ細かく帰属づけます。




