キャリブレーションは万人向けではない:性的指向と宗教的な手がかりが医療QAにおけるLLMの精度と信頼度を歪める
arXiv cs.CL / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、患者の社会的アイデンティティ記述(性的指向や宗教)を含めた場合に、LLMの医療QAにおける不確実性のキャリブレーションがどれほど信頼できるかを検証する。
- 9つの汎用およびバイオメディカルLLMを、2,364の医療質問とその反事実バリアントで評価した結果、アイデンティティ・マーカーが「キャリブレーション危機」を引き起こし、精度と信頼度のキャリブレーションの両方が体系的に劣化することが示された。
- 「同性愛(homosexual)」のマーカーは一貫してパフォーマンス低下を招き、交差的アイデンティティはキャリブレーションに対して特異的かつ非加法的な悪影響を与えると報告されている。
- 臨床医が検証したオープンエンド生成のケーススタディにより、これらのキャリブレーション失敗が多肢選択形式によるアーティファクトではないことが裏づけられた。
- 本論文は、信頼度ベースの臨床ワークフローでLLMの自信(confidence)信号を用いることが、安全性と公平性の観点で重大なリスクになり得ると警告している。社会的アイデンティティの手がかりが、不確実性推定の信頼性に影響するためである。
関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる
Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA