DetailVerifyBench：長い画像キャプションにおける密なハルシネーション局在化のためのベンチマーク

arXiv cs.CV / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、長い画像キャプションにおける“密な（dense）ハルシネーション”を、誤りのある語やスパン単位で正確に特定・局在化できるかを評価するためのベンチマーク DetailVerifyBench を提案しています。
ベンチマークは5つのドメインの計1,000枚の高品質画像で構成され、平均200語超のキャプション長と、複数種類のハルシネーションに対するトークンレベルの詳細注釈を特徴としています。
既存のベンチマークが持つ評価粒度や領域多様性の不足を埋めることを目的としており、長文キャプションでの“局所化精度”をより厳密に測れるとしています。
ベンチマークは公開サイトで利用可能で、MLLM（マルチモーダル大規模言語モデル）の信頼性評価研究を後押しする位置づけです。

概要: 幻覚（ハルシネーション）を正確に検出し、位置特定することは、画像キャプションの高い信頼性を確保するための重要な課題である。マルチモーダル大規模言語モデル（MLLMs）の時代において、キャプションは短い文から、包括的な物語へと進化し、しばしば数百語に及ぶ。この変化により課題は指数関数的に増大する。すなわち、モデルは単に応答レベルの不整合を指摘するだけでなく、広範な文脈の中で特定の誤ったスパンや語を正確に特定しなければならない。しかし、既存のベンチマークは、この能力を評価するのに必要な細かな粒度と領域の多様性を欠いている。そこでこのギャップを埋めるために、我々は DetailVerifyBench を導入する。これは、5つの異なるドメインにまたがる高品質な画像1,000枚から成る、厳密なベンチマークである。平均キャプション長は200語を超え、複数のハルシネーション種別に対する密なトークン単位のアノテーションを備えており、長い画像キャプションにおける精密なハルシネーションの位置特定という分野で、これまでで最も難しいベンチマークである。我々のベンチマークは https://zyx-hhnkh.github.io/DetailVerifyBench/ で利用可能である。

Black Hat Asia

AI Business

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

日経XTECH

エンフォースメント・ギャップ：問題を見つけることが問題だったわけではない理由

Dev.to

デスクトップスクリーンショットツールにAIによる自動レダクションを組み込むまでの道のり

Dev.to

エージェント型AI（Agentic AI） vs 従来の自動化：なぜ現代の企業では別アプローチが必要なのか

Dev.to

DetailVerifyBench：長い画像キャプションにおける密なハルシネーション局在化のためのベンチマーク

要点

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

エンフォースメント・ギャップ：問題を見つけることが問題だったわけではない理由

デスクトップスクリーンショットツールにAIによる自動レダクションを組み込むまでの道のり

エージェント型AI（Agentic AI） vs 従来の自動化：なぜ現代の企業では別アプローチが必要なのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践 設計者はキュレーターに

エンフォースメント・ギャップ：問題を見つけることが問題だったわけではない理由

デスクトップスクリーンショットツールにAIによる自動レダクションを組み込むまでの道のり

エージェント型AI（Agentic AI） vs 従来の自動化：なぜ現代の企業では別アプローチが必要なのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに