アブストラクト: 誤って校正された信頼度スコアは、臨床現場でAIを展開する際の実務上の障害である。常に過信するモデルは、差し控え(defer)に役立つ有用な信号を提供しない。本稿では、医療の多肢選択問題における質問応答に対して、校正(calibration)と弁別(discrimination)の両方を改善するために、ドメイン特化の専門家エージェントと「Two-Phase Verification(2段階検証)」および「S-Score Weighted Fusion(Sスコア重み付き融合)」を組み合わせたマルチエージェントフレームワークを提案する。4つの専門家エージェント(呼吸器、循環器、神経、消化器)が、Qwen2.5-7B-Instructを用いて独立した診断を生成する。各診断は、その後、2段階の自己検証プロセスにかけられ、内部整合性を測定し、専門家信頼度スコア(Specialist Confidence Score: S-score)を生成する。Sスコアは、最終解答を選択し、報告される信頼度を校正する重み付き融合戦略を駆動する。MedQA-USMLEとMedMCQAの双方について、100問および250問の高い不一致度(high-disagreement)サブセットを含む4つの実験設定で評価する。中心的な発見は校正の改善であり、4つのすべての設定でECEが49〜74%低減する。知識集約的な想起要求によって絶対的な精度が制約される、より難しいMedMCQAベンチマークにおいても、この改善が持続する。MedQA-250では、完全なシステムがECE = 0.091(単一専門家ベースラインに対する74.4%の削減)およびAUROC = 0.630(+0.056)を、精度59.2%で達成する。アブレーション分析により、Two-Phase Verificationが主要な校正要因であり、マルチエージェント推論が主要な精度要因であることが示される。これらの結果は、整合性に基づく検証が、多様な医療質問タイプにわたってより信頼できる不確実性推定をもたらし、安全性が重要な臨床AIアプリケーションにおける差し控えのための実用的な信頼度シグナルを提供することを裏付ける。
整合性検証付きマルチエージェント推論は、医療MCQAにおける不確実性キャリブレーションを改善する
arXiv cs.CL / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究は、臨床AIにおける自信(確信度)の不適切なキャリブレーションという問題に取り組み、安全な意思決定に向けて不確実性キャリブレーションを改善するマルチエージェント医療MCQAアプローチを提案する。
- 4つの領域専門家エージェント(呼吸器、心臓病学、神経内科、消化器内科)が Qwen2.5-7B-Instruct を用いて独立に回答を生成し、その後、各回答は2段階の自己検証プロセスによって検査され、専門家の信頼度スコア(Sスコア)を出力する。
- Sスコアの重み付き融合により最終回答を選択し、報告される信頼度をキャリブレーションする。キャリブレーション改善は ECE などの指標で測定する。
- MedQA-USMLE および MedMCQA(高い不一致を含むサブセットを含む)での実験では、設定間で ECE を 49〜74% 削減しつつ、妥当な精度を維持し、MedQA-250 設定では AUROC の向上も示す。
- アブレーション結果では、キャリブレーションの向上は主に「2段階検証」によってもたらされ、マルチエージェント推論は主として精度の改善に寄与することが示される。