VGS-Decoding：視覚グラウンディングスコアに導かれるデコーディングによる医療VLMにおける幻覚（ハルシネーション）抑制

arXiv cs.CV / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

医療用の視覚言語モデルは、生成時に視覚的根拠ではなく言語の事前分布に依存するため、臨床的に危険な形で幻覚を起こし得る。
本論文では、各トークンごとのVisual Grounding Score（VGS）に基づいてトークン確率を再重み付けする、学習不要の推論手法であるVisual Grounding Score Guided Decoding（VGS-Decoding）を提案する。
VGSは、元画像と歪めた画像のもとでのトークン確率の挙動を比較することで、生成された各トークンがどの程度視覚に依存しているかを推定する。
デコーディングは、視覚的に根拠づけられているトークンを増幅し、幻覚によるトークンを抑制することで、固定重みのコントラスティブ調整を用いずに、トークン単位の適応的制御を可能にする。
MIMIC-Diff-VQAおよびVQA-RADにおいて、LLaVA-Med、CheXagent、MedGemmaを含むモデルで実験を行った結果、一貫した改善が見られ（全体で最大+9.12%の向上）、追加学習なしで、推論オーバーヘッドは約2倍にとどまる。コードは採択後に公開予定。

概要: 医療ビジョン・言語モデル（VLMs）は、視覚的証拠ではなく言語の事前知識（language priors）に基づいて応答を生成することで、しばしば幻覚（ハルシネーション）を起こします。これにより、臨床アプリケーションにおいてリスクが生じます。本研究では、推論時の幻覚を軽減するための、学習不要（training-free）手法であるVisual Grounding Score Guided Decoding（VGS-Decoding）を提案します。私たちの重要な洞察は、幻覚トークンは視覚情報が劣化するときに、その確率を維持するか増加させる一方で、視覚に基づくトークンは確率が低下するという点です。各トークンの視覚依存度を、元画像と歪ませた（distorted）画像から得られる分布を比較することで測定するVisual Grounding Score（VGS）を導入します。復号（decoding）中には、視覚に基づくトークンの確率を強調して幻覚を抑制することで、確率の重み付けを行います。固定重みの対照学習（contrastive）手法とは異なり、VGS-Decodingはトークンごとの適応的制御を提供します。LLaVA-Med、CheXagent、MedGemmaにおけるMIMIC-Diff-VQAおよびVQA-RADでの実験では、一貫した改善が示され、全体で最大+9.12%の向上と、自由記述（open-ended）の再現（recall）で $+8.98\%$ の向上を達成しながら、推論オーバーヘッドはわずか $2\times$ で追加学習は不要です。そのため、臨床での導入に現実的です。採択後、再現性を促進するためにコードを公開します。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

機械学習・ディープラーニングにおける数学の必要性

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Santa Augmentcode Intent Ep.6

Dev.to

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

Dev.to

VGS-Decoding：視覚グラウンディングスコアに導かれるデコーディングによる医療VLMにおける幻覚（ハルシネーション）抑制

要点

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

機械学習・ディープラーニングにおける数学の必要性

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Santa Augmentcode Intent Ep.6

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer