AI Navigate

エビデンス統合型言語エージェントによる臨床診断の人間−AI共同推論

arXiv cs.CL / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • PULSE は、領域適合化された大規模言語モデルと科学文献検索を組み合わせて、複雑な内分泌学の症例における診断意思決定を支援する医療推論エージェントです。
  • 82件の実在の内分泌学症例を用いたベンチマークで、PULSE は専門家に匹敵する精度を達成し、レジデントと若手専門医を上回り、Top@1 および Top@4 の閾値で上級専門医に匹敵しました。
  • PULSE は、疾患発生頻度の階層を超えて安定した性能を維持し、医師の精度が希少性とともに低下するのとは異なり、ケースの難易度が上がるにつれて出力長を増やす適応的推論を示しました。
  • 協働での利用により、医師は初期の誤りを訂正し診断仮説を広げることができましたが、自動化バイアスのリスクも生じました。研究は連続および同時の協働ワークフローを分析し、一般的・希少な症例の両方に対して堅牢なサポートを提供することを示しています。
本研究では、領域適合化された大規模言語モデルと科学文献検索を組み合わせ、複雑で現実世界の症例における診断意思決定を支援する医療推論エージェントPULSEを紹介します。能力を評価するため、82件の内分泌学の実在症例報告をベンチマークとして選定し、疾患タイプと発生頻度の広範なスペクトルを網羅しました。統制された実験において、PULSE の性能をレジデントから上級専門医までさまざまな専門知識レベルを持つ医師と比較し、AI アシスタンスが人間の診断推論にどのように影響するかを検討しました。PULSE は専門家に匹敵する精度を達成し、レジデントと若手専門医を上回り、Top@1 および Top@4 の閾値で上級専門医の性能に匹敵しました。疾患の希少性に伴い精度が低下する医師とは異なり、PULSE は発生頻度の階層を跨いで安定した性能を維持しました。エージェントはまた適応的推論を示し、ケースの難易度が高まるにつれて出力長を増やすとともに、熟練した臨床医が観察する長い熟考過程になぞらえた挙動を示しました。協働で使用した場合、PULSE は医師が初期の誤りを訂正し診断仮説を広げるのを可能にしましたが、同時に自動化バイアスのリスクも導入しました。本研究は連続的および同時協働のワークフローの両方を検討し、PULSE が一般的な症例と稀な症例の両方に対して堅牢な支援を提供することを示しています。これらの知見は、臨床診断における言語モデルベースのエージェントの可能性と限界を強調し、現実世界の意思決定における彼らの役割を評価するための枠組みを提供します。