AI Navigate

大規模言語モデルと生存分析を用いた化学療法アウトカムの早期予測

arXiv cs.AI / 2026/3/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論は、大規模言語モデル(LLMs)とオントロジーに基づく表現型の抽出を用いて患者ノートからアウトカムラベルを抽出し、乳がんの化学療法アウトカムを早期に予測することを提案します。
  • EMRの特徴(バイタル、デモグラフィック情報、病期、バイオマーカー、パフォーマンス尺度)を、計画から抽出された化学療法レジメンとNCCNガイドラインに沿って整合させ、NIH標準で検証し、Random Survival Forestを用いて治療失敗までの時間を予測します。C-indexは73%、特定の時間点での分類は精度とF1スコアが70%以上を達成します。
  • 本手法はLLMベースの抽出による表現型の希薄化を緩和し、4つの追加のがん種へ拡張され、がん間での早期予測モデリングの適用範囲が広いことを示唆します。
  • キャリブレーション曲線は確率推定の信頼性を検証し、個別化治療計画とより良い患者アウトカムを支援する可能性を強調します。
要旨: がん治療の化学療法は費用がかさみ、重篤な副作用を伴うため、治療アウトカムを早期に予測して患者管理と意思決定を改善することが重要です。実世界データを用いた化学療法アウトカムの予測モデルは、がんの進行や毒性といった明示的な表現型および治療アウトカムラベルの欠如といった課題に直面します。本研究は、Large Language Models(LLMs)とオントロジーに基づく表現型・アウトカムラベル抽出技術を用いて、患者ノートから表現型とアウトカムラベルを抽出する方法でこれらの課題に対処します。我々は、最も頻繁に発生するがんのひとつである乳がんに焦点を当てました。その理由は、乳がんの有病率が高く、治療に対する患者の反応に大きな個人差があるため、予測モデリングの改善が重要であるためです。データセットには、バイタル、人口統計、病期、バイオマーカー、パフォーマンス尺度などの特徴が含まれていました。EMRデータの化学療法計画から薬剤レジメンとその組み合わせを抽出し、NCCNガイドラインに基づいて絞り込み、NIH基準で検証し、生存分析を用いて解析しました。提案手法は表現型の希薄性を大幅に低減し、予測精度を向上させました。Random Survival Forestを用いて治療失敗までの時間を予測し、C-indexは73%を達成し、特定の時間点での分類にも、精度とF1スコアが70%以上を達成しました。アウトカム確率の信頼性は、キャリブレーション曲線によって検証されました。我々はこのアプローチを他の4つのがん種にも拡張しました。本研究は、LLMベースの臨床データ抽出を用いた治療アウトカムの早期予測の可能性を強調し、個別化治療計画とより良い患者アウトカムの実現を支持する可能性を示しています。