DO-Bench：視覚言語モデルにおける物体ハルシネーションを診断するための帰属可能なベンチマーク

arXiv cs.CV / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、特に物体の存在を2値で確認するタスクにおいて、視覚言語モデル（VLM）の物体ハルシネーションを診断するための制御型ベンチマークDO-Benchを提案している。
DO-Benchは、2つの次元にわたるマルチモーダル介入によって誤りの原因を切り分ける。すなわち、Prior Override（テキストの文脈的事前知識を強める一方で視覚証拠を固定）と、Perception-Limited（フルシーンから局所的な物体クロップへと視覚証拠の粒度を段階的に高める）である。
PriorRobust と PerceptionAbility の2つの診断指標を導入し、モデルが事前知識にどれだけ依存するか／物体をどれだけ知覚的に根拠づけられるかを一貫して定量化する。
オープン・クローズドを含む複数のVLMで評価した結果、事前知識への感度と知覚的信頼性には、機構に依存した系統的な違いがあることが示される。
著者らは、集計精度だけではなく失敗メカニズムを特定することで、VLMの信頼性改善をより的確に導けると主張している。