プリフィル時介入による大規模視覚言語モデルの幻覚(ハルシネーション)緩和
arXiv cs.CV / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模視覚言語モデル(LVLM)のハルシネーション問題を扱い、既存のステアリング手法がデコード段階のみで介入するため誤りが自己回帰的に蓄積し、残存するハルシネーションをむしろ悪化させうる点を指摘しています。
- その解決として、Prefill-Time Intervention(PTI)を提案し、ハルシネーションの誤りが増幅する前にプリフィル段階で一度だけKVキャッシュを強化する方針を取ります。
- PTIはモダリティに応じて方針を変え、視覚とテキストそれぞれに異なるステアリング方向を用い、キーは視覚に根ざした対象へ、値は背景ノイズを抑えるように分離して誘導します。
- 実験では、PTIがハルシネーションを大きく軽減し、複数のデコード戦略・LVLM・ベンチマークにわたって汎化性があることが示されています。
- PTIは既存のデコード段階手法とは直交しており、プラグアンドプレイで統合できて追加の性能向上が見込めると述べられており、GitHubでコードも公開されています。



