予測エントロピーは医療ビジョン-言語モデルにおけるキャリブレーションとパラフレーズ感度を結びつける

arXiv cs.LG / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、医療ビジョン-言語モデルにおける2つの主要な安全性リスク——不適切にキャリブレーションされた信頼度と、質問の言い換え（パラフレーズ）への感度——が、意思決定境界に近いことに関連する共通のメカニズムを持つと主張している。
著者らは、MedGemma 4BITに対して、5つの不確実性定量化手法を、分布内のMIMIC CXRと分布外のPadChestでベンチマークし（さらにLLaVA RAD7Bでクロス・アーキテクチャ検証を実施）、1回のフォワードパスから得られる予測エントロピーが、誤りの起こりやすさと、言い換えによりどのサンプルが反転（予測が変化）するかの両方を予測できることを示した。
結果として、予測エントロピーは、信頼できない予測とパラフレーズに敏感な予測の双方を、単一のエントロピー閾値でフラグ付けでき、MedGemmaではAUROC約0.711、LLaVA RAD7Bでは0.878を達成した。
本研究では、5メンバーのLoRAアンサンブルがデータセットシフト（MIMIC→PadChest）下でキャリブレーションと精度を低下させる一方、LLaVA RADアンサンブルはより頑健であることが分かった。
単一モデル手法の中では、MC Dropoutが最も良いキャリブレーション（報告されたECEが最小）と選択的予測のカバレッジを示したが、それでも予測エントロピーは、誤り検出のAUROCおよびパラフレーズ・スクリーニングの両面でアンサンブルより優れていた。

Abstract

医療ビジョン言語モデル（VLM）は、安全な導入を脅かす2つの失敗モード、すなわち「誤って較正された信頼度」と「質問文の言い換えへの感度」を抱えています。本研究では、MedGemma 4BIT上で、in distributionのMIMIC CXRデータセットとout of distributionのPadChest胸部X線データセットに対して5つの不確実性定量化手法をベンチマークし、LLaVA RAD7Bでのクロスアーキテクチャ検証を行うことで、これらが共通の原因、すなわち「決定境界に近いこと」に起因することを示します。よく較正された単一モデル手法では、1回の順伝播で得られる予測エントロピーが、言い換えによって反転するサンプルを予測します。MedGemmaでAUROC 0.711、LLaVA RADでAUROC 0.878（p 10^4）です。これにより、単一のエントロピー閾値で、不確実な予測と、言い換えに敏感な予測の両方を検出できます。5名のLoRAアンサンブルは、MIMICからPadChestへのシフトにおいて失敗し、42.9のECE、34.1の精度となります。一方で、LLaVA RADのアンサンブルは崩壊しません（69.1）。MC Dropoutは、最良の較正（ECE 4.3）と、5のリスクにおける選択的予測のカバレッジ（21.5）を達成しますが、それでも、1回の順伝播から得られる全エントロピーは、両方の誤り検出（AUROC 0.743 対 0.657）とパラフレーズ（言い換え）スクリーニングの面でアンサンブルを上回ります。単純な手法が勝ります。