推論時の関連度伝播によるマルチモーダルLLMの幻覚（ハルシネーション）低減

arXiv cs.LG / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダルLLMの幻覚が、推論時にテキスト・トークンへ過度に依存することで知覚入力（視覚/音声）への根拠付けが弱まることに起因するとして対策を提案している。
LIME（Learning Inference-time Modality Enhancement）は、LRP（Layer-wise Relevance Propagation）でトークン単位の寄与を定量化し、知覚入力への依存を高めることで基盤となる根拠付けを強化する学習不要の枠組みである。
LIMEは学習済みパラメータを変更せず、追加の学習データも不要としながら、推論時にキーベクトル/バリューベクトル（key-value）表現を更新して関連度に基づく目的関数を実現する。
複数の視覚・音声のマルチモーダルベンチマークで評価した結果、LIMEは幻覚を一貫して低減し、グラウンディングを改善しつつ生成品質を維持できることが示された。
さらに、LIMEはモダリティ寄与を増やし、局所的で意味的に整合した関連度パターンを生成することが分かった。