要旨: マルチモーダル大規模言語モデルは、推論時の幻覚(インファレンス・ハルシネーション)にしばしば悩まされます。これは、言語の事前知識(プライア)が視覚的な証拠を支配してしまうことが一因の一つです。既存の学習不要(トレーニングフリー)による対策手法は、いずれも視覚表現を擾乱して自然な画像分布から逸脱するか、モデルが本来備えている生成的な流暢さ(fluency)を損なうような、侵入的な操作を強いるかのどちらかです。そこで本研究では、マルチモーダル幻覚はデコーディング段階において、テキスト表現に対する視覚的な基盤付け(visual grounding)の過敏性として現れる、という新しい観点を提案します。この洞察に基づき、訓練なしで事前知識に起因する幻覚を抑える枠組みである Decoding by Perturbation(DeP)を提案します。DePは、潜在的な言語事前知識を引き出すために、多段階のテキスト擾乱を適用する動的プローブを用います。さらに注意(attention)の分散を活用して、安定した証拠領域を強化し、特徴空間における疑わしいノイズを抑制します。加えて、ログイットの統計を用いて解釈可能な事前知識のドリフト方向(prior drift direction)を構築し、テキストの共起による確率バイアスに対抗します。大規模な実験の結果、DePは幻覚を効果的に低減し、複数のベンチマークにおいてより優れた性能を達成することが確認されました。
摂動によるデコーディング:動的なテキスト摂動でMLLMの幻覚を軽減する
arXiv cs.CL / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダルLLMの幻覚は、多くの場合、デコーディング中に言語の事前分布が視覚的根拠を過度に支配してしまうこと、特に視覚的なグラウンディングがテキスト表現の仕方にどのように反応するかに起因すると主張する。
- 推論時に制御された複数レベルのテキスト摂動を導入し、潜在する言語の事前分布を引き出して管理する「摂動によるデコーディング(DeP)」を、学習不要の手法として提案する。
- DePは、注目(attention)の分散を用いて特徴空間内での安定した、証拠に整合する領域を強化し、疑わしいノイズを抑制する。
- さらに、ロジット統計から解釈可能な「事前分布のドリフト方向」を推定し、テキストの共起によって生じる確率バイアスを打ち消す。
- 実験では、DePが幻覚を低減し、複数の評価にわたってベンチマーク性能を改善することが報告されている。




