医療用VQAにおける過信とキャリブレーション:実証的知見と幻覚を意識した低減手法

arXiv cs.LG / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複数のアーキテクチャ(Qwen3-VL、InternVL3、LLaVA-NeXT)、モデル規模(2B〜38B)、信頼度プロンプト戦略、そして3つの医療用VQAベンチマークにわたって、医療用ビジョン・言語モデル(VLM)の信頼度キャリブレーションと過信を体系的に実証する研究を報告する。
  • 過信はモデルファミリをまたいで持続し、スケーリングや一般的な信頼度に関するプロンプト手法(例:chain-of-thoughtや、言語化された信頼度のバリエーション)では解消されないことを見出す。
  • Platt scalingのような事後的キャリブレーション手法は、キャリブレーション誤差を大幅に低減し、プロンプトに基づく信頼度推定アプローチよりも優れている。
  • 研究では、事後的キャリブレーション手法が厳密に単調であるため、識別的なランキング品質を示すAUROCは改善されず、AUROCは変化しないことを示す。
  • 視覚に根ざした幻覚検出の信号を用いて信頼度推定を洗練する、幻覚を意識したキャリブレーション(HAC)を提案する。これにより、特に自由形式の質問において、キャリブレーションとAUROCの両方が改善される。幻覚信号で補強されたキャリブレーション済み信頼度を用いることで、医療用VQAのより信頼性の高いデプロイが可能になることを裏付ける。

Abstract

視覚言語モデル(VLM)が臨床意思決定支援にますます導入されるにつれ、必要なのは単なる精度ではありません。予測をどれだけ信頼すべきかを把握することも同様に重要です。しかし、医学領域におけるこれらのモデルの過信(オーバーコンフィデンス)について、包括的かつ体系的な調査は依然として著しく不足しています。私たちは、このギャップを埋めるために、VLMにおける信頼度キャリブレーションの包括的な実証研究を行います。対象は3つのモデルファミリ(Qwen3-VL、InternVL3、LLaVA-NeXT)、3つのモデル規模(2B--38B)、さらに複数の信頼度推定のプロンプト戦略であり、3つの医療向け視覚質問応答(VQA)ベンチマークにわたって評価します。この研究により、3つの主要な発見が得られました。第一に、過信はモデルファミリをまたいで持続し、スケーリングや、連鎖的思考(chain-of-thought)や言語化された信頼度バリアントなどのプロンプトによっては解消されません。第二に、Platt scalingのような単純な事後キャリブレーション手法は、キャリブレーション誤差を低減し、プロンプトベースの戦略に対して一貫して優れます。第三に、これらの事後キャリブレーション手法は(厳密な)単調性ゆえに、予測の識別能力を改善する上で本質的な限界があり、そのためAUROCは同じ水準のままです。これらの知見に動機づけられ、私たちは幻覚を意識したキャリブレーション(HAC)を調査します。HACは、視覚に根ざした幻覚検出のシグナルを補完的な入力として組み込み、信頼度推定を洗練します。その結果、これらの幻覚シグナルを活用することで、キャリブレーションとAUROCの両方が改善され、特に自由回答形式の質問で最大の向上が得られることが分かりました。全体として、本研究の結果は、医療VLMの導入において、単純な生の信頼度推定よりも事後キャリブレーションを標準的な手法として行うべきことを示唆しています。また、幻覚シグナルが医療VQAにおけるVLMのより信頼性の高い利用を可能にする実用的な有用性を明らかにしています。