R-CoV:LVLMにおける物体の幻覚を抑えるための領域認識型チェーン・オブ・ヴェリフィケーション

arXiv cs.CV / 2026/4/23

📰 ニュースModels & Research

要点

  • 本論文では、R-CoV(Region-aware Chain-of-Verification)という、LVLMにおける物体の幻覚(存在しない物体を画像内の対象として主張すること)を低減するための事後(post-hoc)手法を提案します。
  • R-CoVは、人が複雑な視覚情報を特定の画像領域や詳細に着目して理解することに着想を得て、LVLMに領域レベルの推論を促し、その結果を連鎖(チェーン)の手がかりとして幻覚を検出・緩和します。
  • 6ステップ(初期応答生成、エンティティ抽出、座標生成、領域記述、検証実行、最終応答生成)から構成され、学習なしでさまざまなLVLMにシームレスに組み込め、外部の検出モデルにも依存しません。
  • 複数の代表的な幻覚ベンチマークを用いた広範な実験により、R-CoVが複数のLVLMで物体の幻覚を大きく抑えることが示されています。

要旨: 大規模視覚言語モデル(LVLMs)は、さまざまなマルチモーダルの理解および推論タスクにおいて目覚ましい性能を示してきました。しかし、それでもなお、対象の幻覚、すなわち視覚入力に存在しない物体があるという主張には悩まされています。この課題に対処するために、本稿では、事後的(post-hoc)な手法としてLVLMにおける対象の幻覚を軽減する、Region-aware Chain-of-Verification(R-CoV)を提案します。人間が複雑な視覚情報を理解する方法—しばしば、与えられたサンプルの特定の画像領域や詳細に焦点を当てる—に着想を得て、私たちはLVLM自身から領域レベルの処理を引き出し、それを手がかりとして連鎖させることで、LVLMが自ら生み出す対象の幻覚を検出し、軽減します。具体的には、私たちのR-CoVは6つのステップから構成されます:初期応答の生成、エンティティ抽出、座標生成、領域記述、検証の実行、最終応答の生成。単純でありながら効果的な方法として、R-CoVは学習不要で、外部の検出モデルに依存することなく、さまざまなLVLMにシームレスに統合できます。複数のLVLMにわたって、広く用いられているいくつかの幻覚ベンチマークに対して大規模な実験を行った結果、R-CoVがLVLMにおける対象の幻覚を大幅に軽減できることが示されました。プロジェクトページ: https://github.com/Jiahao000/R-CoV。