Spotlight and Shadow：注意誘導型デュアルアンカー内省的デコーディングによるMLLMの幻覚抑制

arXiv cs.CV / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、生成文が視覚入力と矛盾する場合を中心に、マルチモーダル大規模言語モデル（MLLM）における幻覚（ハルシネーション）を扱う。
内部の「知覚的不一致」を用いて各トークンを較正する、コントラスト的デコーディング手法であるDual-Anchor Introspective Decoding（DaID）を提案する。
DaIDは2つの誘導コンポーネントを選択する。すなわち、視覚的な事実性シグナルを増幅する注意ベースの「Spotlight」層と、根拠のないテキストの続きを抑制する「Shadow」層である。
視覚的な注意分布を用いてトークン固有のデュアルアンカー適応を駆動することで、DaIDは幻覚を低減しつつ推論品質を向上させることを目指す。
複数のベンチマークおよび異なるMLLMに対する実験により、幻覚抑制の顕著な効果と、より強い汎用推論性能が報告されている。

日経XTECH

日経XTECH

日経XTECH

日経XTECH

日経XTECH