プリフィル時介入による大規模視覚言語モデルの幻覚(ハルシネーション)緩和

arXiv cs.CV / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模視覚言語モデル(LVLM)のハルシネーション問題を扱い、既存のステアリング手法がデコード段階のみで介入するため誤りが自己回帰的に蓄積し、残存するハルシネーションをむしろ悪化させうる点を指摘しています。
  • その解決として、Prefill-Time Intervention(PTI)を提案し、ハルシネーションの誤りが増幅する前にプリフィル段階で一度だけKVキャッシュを強化する方針を取ります。
  • PTIはモダリティに応じて方針を変え、視覚とテキストそれぞれに異なるステアリング方向を用い、キーは視覚に根ざした対象へ、値は背景ノイズを抑えるように分離して誘導します。
  • 実験では、PTIがハルシネーションを大きく軽減し、複数のデコード戦略・LVLM・ベンチマークにわたって汎化性があることが示されています。
  • PTIは既存のデコード段階手法とは直交しており、プラグアンドプレイで統合できて追加の性能向上が見込めると述べられており、GitHubでコードも公開されています。

Abstract

大規模視覚言語モデル(LVLMs)は視覚—テキスト理解において目覚ましい進展を遂げてきましたが、その信頼性は幻覚、つまり事実に反する、または一貫性のない応答の生成によって決定的に損なわれています。近年、ステアリングベクトルを用いた研究により幻覚の低減に有望な結果が示されましたが、顕著な課題が残っています。それは、残存する幻覚の重大度を意図せず増幅してしまう点です。我々は、これを、ステアリングベクトルがデコーディング段階のみに専念しているためだと考えます。そこでは誤りが自己回帰的に蓄積し、その後の幻覚的出力を段階的に悪化させてしまいます。これに対処するため、我々は Prefill-Time Intervention(PTI)を提案します。これは、新しいステアリングのパラダイムであり、プリフィル段階で一度だけ介入することで、誤りの蓄積が起こる前に初期のキー・バリュー(KV)キャッシュを強化します。具体的には、PTIはモダリティに応じており、視覚表現とテキスト表現それぞれに対して異なる方向を導出します。この介入は分離されており、キーを視覚的に根拠のある対象へと誘導し、バリューを背景ノイズを除去するようにフィルタリングします。これにより、幻覚を起こしやすい表現を、その発生源において修正します。大規模な実験により、PTIが幻覚の低減において大きな性能向上をもたらすこと、また多様なデコーディング戦略、LVLM、およびベンチマーク間での汎化性を有することが示されています。さらにPTIは既存のデコーディング段階の手法と直交しており、プラグアンドプレイでの統合が可能で、さらなる性能向上が見込めます。コードは以下で公開されています:https://github.com/huaiyi66/PTI。