長期的な多発性骨髄腫記録に対するエージェント型臨床推論:専門家のコンセンサスとの比較による後ろ向き評価

arXiv cs.AI / 2026/4/28

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この研究は、LLMのエージェント型推論システムが多発性骨髄腫の意思決定において、長期・多様な患者記録を用いて専門家に近いレベルで臨床推論を行えるかを検証し、単回RAG、反復RAG、フルコンテキスト入力と比較しています。
  • 48のテンプレート、3つの複雑度レベルを含む469件の質問ペアで(腫瘍内科医による二重アノテーションと上級血液内科医の裁定によるラベル)、エージェント型システムは一致率79.6%を達成し、ベースラインを上回りました。一方で反復RAGとフルコンテキストは75.4〜75.8%付近で頭打ちになりました。
  • 改善幅は、難易度の高い基準ベースの統合質問や、患者の記録が長いほど大きくなり、最長の記録(上位10%)で特に大きな効果が見られました。
  • 全体のエラー率はシステム12.2%で専門家の意見不一致13.6%と同程度でしたが、システムのエラーは専門家の不一致より臨床的に重要なものが多かったため、日常診療での前向き評価が必要だと示唆されています。
  • 外部検証としてMIMIC-IVも用いられていますが、患者ベネフィットにつながるかを確認するには前向き研究が不可欠であり、導入には慎重さが求められると著者らは強調しています。

概要: 多発性骨髄腫は、数年から数十年にわたって順次の治療ラインにより管理されており、各判断は、数十から数百に及ぶ異種の臨床文書に分散して存在する、累積的な疾患履歴に依存します。LLMベースのシステムが、このエビデンスを専門家の合意に近い水準で統合できるかどうかは、まだ確立されていません。2001年から2026年までの三次医療センターで治療された811人の多発性骨髄腫患者の縦断的な臨床記録を対象に、44,962件の文書と1,334,677件の検査値をカバーする後ろ向き評価を実施し、外部検証としてMIMIC-IVを用いました。エージェント型推論システムは、469の患者-質問ペア(48のテンプレート、3つの複雑性レベル)において、シングルパスのリトリーバル拡張生成(RAG)、反復RAG、フルコンテキスト入力と比較されました。参照ラベルは、4人の腫瘍内科医による二重注釈に、上級血液内科医による裁定を加えて作成されました。反復RAGおよびフルコンテキスト入力は、共通の上限に収束しました(75.4% vs 75.8%、p = 1.00)。一方、エージェント型システムは79.6%の一致度(95% CI 76.4-82.8)に到達し、両ベースラインを上回りました(+3.8および+4.2 pp;p = 0.006および0.007)。改善は質問の複雑性に伴って増大し、基準に基づく統合では+9.4 pp(p = 0.032)に達しました。また、記録の長さに伴って増大し、上位デシル(n = 10)では+13.5 ppでした。システムの誤り率(12.2%)は専門家の不一致(13.6%)と同程度でしたが、重大さの方向が逆でした。システムの誤りのうち臨床的に重要だった割合は57.8%であるのに対し、専門家の不一致では18.8%でした。エージェント型推論は、共有された上限を超えるための唯一のアプローチであり、その改善は最も複雑な質問と最長の記録に集中していました。残存するシステム誤りの臨床的な影響が大きいことは、これらの知見が患者の利益につながる前に、日常診療における前向き評価が必要であることを示しています。