VGS-Decoding:視覚グラウンディングスコアに導かれるデコーディングによる医療VLMにおける幻覚(ハルシネーション)抑制

arXiv cs.CV / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 医療用の視覚言語モデルは、生成時に視覚的根拠ではなく言語の事前分布に依存するため、臨床的に危険な形で幻覚を起こし得る。
  • 本論文では、各トークンごとのVisual Grounding Score(VGS)に基づいてトークン確率を再重み付けする、学習不要の推論手法であるVisual Grounding Score Guided Decoding(VGS-Decoding)を提案する。
  • VGSは、元画像と歪めた画像のもとでのトークン確率の挙動を比較することで、生成された各トークンがどの程度視覚に依存しているかを推定する。
  • デコーディングは、視覚的に根拠づけられているトークンを増幅し、幻覚によるトークンを抑制することで、固定重みのコントラスティブ調整を用いずに、トークン単位の適応的制御を可能にする。
  • MIMIC-Diff-VQAおよびVQA-RADにおいて、LLaVA-Med、CheXagent、MedGemmaを含むモデルで実験を行った結果、一貫した改善が見られ(全体で最大+9.12%の向上)、追加学習なしで、推論オーバーヘッドは約2倍にとどまる。コードは採択後に公開予定。

概要: 医療ビジョン・言語モデル(VLMs)は、視覚的証拠ではなく言語の事前知識(language priors)に基づいて応答を生成することで、しばしば幻覚(ハルシネーション)を起こします。これにより、臨床アプリケーションにおいてリスクが生じます。本研究では、推論時の幻覚を軽減するための、学習不要(training-free)手法であるVisual Grounding Score Guided Decoding(VGS-Decoding)を提案します。私たちの重要な洞察は、幻覚トークンは視覚情報が劣化するときに、その確率を維持するか増加させる一方で、視覚に基づくトークンは確率が低下するという点です。各トークンの視覚依存度を、元画像と歪ませた(distorted)画像から得られる分布を比較することで測定するVisual Grounding Score(VGS)を導入します。復号(decoding)中には、視覚に基づくトークンの確率を強調して幻覚を抑制することで、確率の重み付けを行います。固定重みの対照学習(contrastive)手法とは異なり、VGS-Decodingはトークンごとの適応的制御を提供します。LLaVA-Med、CheXagent、MedGemmaにおけるMIMIC-Diff-VQAおよびVQA-RADでの実験では、一貫した改善が示され、全体で最大+9.12%の向上と、自由記述(open-ended)の再現(recall)で+8.98\%の向上を達成しながら、推論オーバーヘッドはわずか2\timesで追加学習は不要です。そのため、臨床での導入に現実的です。採択後、再現性を促進するためにコードを公開します。