医療用VQAにおける過信とキャリブレーション:実証的知見と幻覚を意識した低減手法
arXiv cs.LG / 2026/4/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、複数のアーキテクチャ(Qwen3-VL、InternVL3、LLaVA-NeXT)、モデル規模(2B〜38B)、信頼度プロンプト戦略、そして3つの医療用VQAベンチマークにわたって、医療用ビジョン・言語モデル(VLM)の信頼度キャリブレーションと過信を体系的に実証する研究を報告する。
- 過信はモデルファミリをまたいで持続し、スケーリングや一般的な信頼度に関するプロンプト手法(例:chain-of-thoughtや、言語化された信頼度のバリエーション)では解消されないことを見出す。
- Platt scalingのような事後的キャリブレーション手法は、キャリブレーション誤差を大幅に低減し、プロンプトに基づく信頼度推定アプローチよりも優れている。
- 研究では、事後的キャリブレーション手法が厳密に単調であるため、識別的なランキング品質を示すAUROCは改善されず、AUROCは変化しないことを示す。
- 視覚に根ざした幻覚検出の信号を用いて信頼度推定を洗練する、幻覚を意識したキャリブレーション(HAC)を提案する。これにより、特に自由形式の質問において、キャリブレーションとAUROCの両方が改善される。幻覚信号で補強されたキャリブレーション済み信頼度を用いることで、医療用VQAのより信頼性の高いデプロイが可能になることを裏付ける。




