DetailVerifyBench:長い画像キャプションにおける密なハルシネーション局在化のためのベンチマーク

arXiv cs.CV / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、長い画像キャプションにおける“密な(dense)ハルシネーション”を、誤りのある語やスパン単位で正確に特定・局在化できるかを評価するためのベンチマーク DetailVerifyBench を提案しています。
  • ベンチマークは5つのドメインの計1,000枚の高品質画像で構成され、平均200語超のキャプション長と、複数種類のハルシネーションに対するトークンレベルの詳細注釈を特徴としています。
  • 既存のベンチマークが持つ評価粒度や領域多様性の不足を埋めることを目的としており、長文キャプションでの“局所化精度”をより厳密に測れるとしています。
  • ベンチマークは公開サイトで利用可能で、MLLM(マルチモーダル大規模言語モデル)の信頼性評価研究を後押しする位置づけです。

概要: 幻覚(ハルシネーション)を正確に検出し、位置特定することは、画像キャプションの高い信頼性を確保するための重要な課題である。マルチモーダル 大規模言語モデル(MLLMs)の時代において、キャプションは短い文から、包括的な物語へと進化し、しばしば数百語に及ぶ。この変化により課題は指数関数的に増大する。すなわち、モデルは単に応答レベルの不整合を指摘するだけでなく、広範な文脈の中で特定の誤ったスパンや語を正確に特定しなければならない。しかし、既存のベンチマークは、この能力を評価するのに必要な細かな粒度と領域の多様性を欠いている。そこでこのギャップを埋めるために、我々は DetailVerifyBench を導入する。これは、5つの異なるドメインにまたがる高品質な画像1,000枚から成る、厳密なベンチマークである。平均キャプション長は200語を超え、複数のハルシネーション種別に対する密なトークン単位のアノテーションを備えており、長い画像キャプションにおける精密なハルシネーションの位置特定という分野で、これまでで最も難しいベンチマークである。我々のベンチマークは https://zyx-hhnkh.github.io/DetailVerifyBench/ で利用可能である。