要旨: 医療の大規模言語モデル(LLM)の評価は、現実の医療における問い合わせが持つ曖昧さをほとんど反映しない、簡略化された試験形式のベンチマークに依存しています。私たちは、臨床における曖昧さと信頼性の評価(CLinical Evaluation of Ambiguity and Reliability: CLEAR)フレームワークを導入します。これは、意思決定空間の提示、曖昧さ、そして不確実性が、医療ベンチマークにおけるLLMの推論にどのように影響するかを評価するものです。CLEARは、(1)もっともらしい回答選択肢の数、(2)正解または棄権(abstention)オプションの有無、(3)回答選択肢の意味的な枠組み(semantic framing)を、体系的に摂動させます。17のLLMにまたがって評価された3つのベンチマークに対してCLEARを適用した結果、既存の評価手法には3つの注目すべき限界があることが明らかになりました。第一に、もっともらしい回答の数を増やすと、モデルが正解を特定し、誤った選択肢に対して棄権する能力が低下します。第二に、この慎重さの欠如は、棄権の枠組みが「上のどれでもない(None of the Above)」のような断定的な拒否から、「わかりません(I don't know)」のような不確実性の表明(IDK)へと移るにつれて一層強まります。特に、回答空間にIDKを単に含めるだけで、不正確な回答の選択が増えることが観察されます。最後に、正解を特定することと、誤った選択に対して棄権することの間に存在するパフォーマンス・ギャップを、謙虚さ(humility)の不足(humility deficit)として形式化し、これがモデル規模の拡大とともに悪化することを示します。私たちの結果は、標準的な医療ベンチマークの限界を明らかにし、拡張(スケーリング)だけではLLMの信頼性問題は解決しないことを強調します。
CLEAR:医療におけるLLMの信頼性がノイズと曖昧さで劣化する仕組みの解明
arXiv cs.CL / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- CLEARは、簡略化された試験形式のベンチマークを超えて、意思決定の選択肢設計における曖昧さと不確実性が医療LLMの信頼性に与える影響を評価する枠組みである。
- CLEARは、もっともらしい選択肢の数、正解や棄権(abstention)オプションの有無、そして選択肢の意味的なフレーミングを体系的に変化させて検証する。
- 3つの医療ベンチマークと17のLLMにCLEARを適用した結果、もっともらしい選択肢の数を増やすと正解の選択と誤答に対する棄権の両方が低下することが示された。
- 棄権の表現を「どれでもない」ではなく「わからない(I don’t know)」のような不確実性の表明に変えると、さらなる信頼性低下が起こり、単に「I don’t know」オプションを入れるだけで誤答の選択が増えることも分かった。
- 正解の選択と誤答の棄権の間のギャップを「謙虚さの不足(humility deficit)」として定式化し、モデル規模が大きくなるほどこのギャップが悪化することが明らかになった。




