Spotlight and Shadow:注意誘導型デュアルアンカー内省的デコーディングによるMLLMの幻覚抑制

arXiv cs.CV / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、生成文が視覚入力と矛盾する場合を中心に、マルチモーダル大規模言語モデル(MLLM)における幻覚(ハルシネーション)を扱う。
  • 内部の「知覚的不一致」を用いて各トークンを較正する、コントラスト的デコーディング手法であるDual-Anchor Introspective Decoding(DaID)を提案する。
  • DaIDは2つの誘導コンポーネントを選択する。すなわち、視覚的な事実性シグナルを増幅する注意ベースの「Spotlight」層と、根拠のないテキストの続きを抑制する「Shadow」層である。
  • 視覚的な注意分布を用いてトークン固有のデュアルアンカー適応を駆動することで、DaIDは幻覚を低減しつつ推論品質を向上させることを目指す。
  • 複数のベンチマークおよび異なるMLLMに対する実験により、幻覚抑制の顕著な効果と、より強い汎用推論性能が報告されている。