多段階の医療診断ベンチマーク:Hold、Lure、そして自己修正
arXiv cs.CL / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、MINT(Medical Incremental N-Turn Benchmark)を提案する。これは、1,035件の事例と、臨床的に意味のある情報をターン間で保持することを目的としたラベル付きの「エビデンス・シャード」を備える、多段階(マルチターン)の医療診断ベンチマークである。
- MINTにおける11のLLMの評価から、次の3つの反復的な挙動が見られる。すなわち、モデルは十分なエビデンスが観測される前に回答してしまうことが多い、誤りから正解への自己修正はその逆よりも多い、また(検査結果などの)目立つエビデンスに強く「誘導(lured)」されて、時期尚早に確定してしまう。
- 本研究は、診断質問を後続ターンに先送りすることで、時期尚早な回答を減らし、最初の確定(first-commit)精度を最大62.6%改善できることを示す。
- さらに、注目すべき臨床エビデンスを後続ターンまで保持することで、時期尚早な確定に起因する大きな精度低下(最大23.3%の低下)を防げることも明らかになっている。
- 著者らは、現実的な多段階の臨床推論のための評価フレームワークと、診断ワークフローにおけるLLMの信頼性を高めるための具体的な対話(インタラクション)上の推奨事項の両方を提示している。