COHERENCE:インターリーブされたマルチモーダル文脈におけるきめ細かな画像-テキスト整合性のベンチマーク

arXiv cs.CV / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、単一画像や複数画像の理解にとどまらず、インターリーブされたマルチモーダル文脈における画像とテキストのきめ細かな対応関係を評価するための新しいベンチマークCOHERENCEを提案しています。
  • 文書の読み取りなどの現実的な状況を想定し、混在した画像-テキスト列の中で、関連する視覚情報を特定のテキスト根拠と対応づけ、きめ細かな整合性を確立する能力を問います。
  • COHERENCEは4つの代表的な領域をカバーし、正確な画像-テキスト対応関係の復元をテストするための高品質な設問6,161問を含みます。
  • 6種類の誤り分析を行うことで、現行のMLLMが欠けている特定の能力に、インターリーブされた画像-テキスト理解における失敗をきめ細かく帰属づけます。

Abstract

近年、マルチモーダル大規模言語モデル(MLLMs)は、幅広いマルチモーダルベンチマークにおいて目覚ましい進展を遂げています。これらの進歩にもかかわらず、既存のベンチマークの多くは主に単一画像または複数画像の理解に焦点を当てています。しかし、文書の読み取りのような現実世界のシーンでは、情報はしばしば、相互に入り組んだマルチモーダルの文脈として提示されます。これにより、MLLMには、個々の画像の内容を認識するだけでなく、関連するテキストおよび視覚的根拠を特定し、それらの間のきめ細かな対応関係を確立し、さらに文脈上の証拠に基づいて入り組んだ文脈の中で、それらの整合した信号を推論することが求められます。とはいえ、入り組んだ画像とテキストの文脈におけるMLLMのきめ細かな理解能力を定量化するための体系的なベンチマークは、いまだ不足しています。このギャップを埋めるために、本論文ではCOHERENCEを提案します。これは、入り組んだマルチモーダル文脈において、MLLMが画像とテキストの対応関係をきめ細かく復元する能力を評価するためのベンチマークです。COHERENCEは、4つの代表的な領域にまたがる入り組んだ画像テキスト内容を扱い、6,161件の高品質な質問を含みます。さらに、6種類の誤り分析を実施し、入り組んだ画像テキスト理解における失敗を、現在のMLLMに欠けている特定の能力に対してきめ細かく帰属づけられるようにしています。