AI Navigate

ThReadMed-QA: 実際の患者質問からの多ターン医療対話ベンチマーク

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ThReadMed-QAは、r/AskDocsから抽出された2,437件の完全回答付きの患者-医師対話をベンチマークとして導入し、最大9ターンにわたる8,204件の質問-回答ペアを含みます。
  • 本ベンチマークは、医師を基盤とした校正済みルーブリックを用いて、最先端の大規模言語モデル5つ(GPT-5、GPT-4o、Claude Haiku、Gemini 2.5 Flash、Llama 3.3 70B)を層別化されたテストサブセットで評価します。
  • 結果として、GPT-5は41.2%の完全正解回答にとどまり、全モデルの正確性はターン0からターン2へ低下し、誤答率はターン3までおおよそ3倍に上昇しました。
  • 本論文は、多ターンの失敗モードを定量化する指標としてConversational Consistency Score (CCS)とError Propagation Rate (EPR)を導入し、初期のパフォーマンスが高いモデルほど長い対話で急激な低下とエラー伝播を起こしやすいことを示しています。
医療における質問応答ベンチマークは主に単一ターンのやり取りを評価しており、実際の患者の診察における反復的で明確化を求める性質を捉え切れていない。ThReadMed-QAを導入する。これはr/AskDocsから抽出された2,437件の完全回答付きの患者-医師の対話スレッドから成り、最大9ターンにわたる8,204件の質問-回答ペアを含む。従来の研究がシミュレートされた対話、敵対的なプロンプト、試験形式の質問に依存していたのとは異なり、ThReadMed-QAは実際の患者のフォロー質問と検証済みの医師の回答を捉え、オンライン上で患者が自然に医療情報を求める様子を反映している。私たちは最先端の5つのLLM—GPT-5、GPT-4o、Claude Haiku、Gemini 2.5 Flash、Llama 3.3 70B—を、医師の実データに基づく校正済みのルーブリックを用いて層別化された238対話(948QAペア)で評価する。最も強力なモデルであるGPT-5でさえ、完全に正解な回答を41.2%しか達成していない。5モデルはいずれもターン0からターン2へと有意に劣化し(p < 0.001)、3ターン目には誤答率が約3倍に上昇する。我々は、単一ターンの能力と複数ターンの信頼性の間に根本的な緊張があることを特定する。初期性能が最も高いモデル(GPT-5: 75.2、Claude Haiku: 72.3、100点満点中)はターン2で最も急激に低下する(それぞれ16.2点、25.0点低下)、一方で弱いモデルは停滞またはわずかに改善する。マルチターンの失敗モードを定量化する2つの指標を導入する。Conversational Consistency Score (CCS)とError Propagation Rate (EPR)である。CCSは、 Claude Haikuの対話のほぼ3分の1が、同じスレッド内で完全に正解な回答と全く間違った回答の間を行き来することを示している。EPRは、1つの誤ったターンが、すべてのモデルにおいて後続の誤ったターンの確率を1.9〜6.1倍高めることを示す。