広告

TimeTox:臨床試験プロトコルから時間的な毒性(time toxicity)を自動抽出するためのLLMベースのパイプライン

arXiv cs.CL / 2026/3/24

💬 オピニオンTools & Practical UsageModels & Research

要点

  • TimeToxは、臨床試験プロトコルの「評価スケジュール(Schedule of Assessments)」表から、「時間的な毒性(time toxicity)」(累積ヘルスケア接触日数)を自動抽出するLLMベースのパイプラインである。
  • 本システムは、Google Geminiを3つの段階で用いる。すなわち、(1)プロトコル全体PDFからの要約抽出、(2)治療群ごとに6つの累積時点での時間的毒性の定量化、(3)位置ベースのアーム照合による複数実行のコンセンサス生成である。
  • 合成スケジュールの検証では、「構造化してから数える(structure-then-count)」の2段階アーキテクチャにより、単一パス方式と比較して臨床的に許容可能な精度が100%(±3日、MAE 0.81)となり、単一パス(single-pass)の41.5%(MAE 9.0)を上回った。
  • 644件の実データの腫瘍学プロトコルでは、単一パス(vanilla)パイプラインは3回の実行にわたって再現性がより高く、臨床的に許容可能な精度95.3%に到達し、完全安定性は82.0%(IQR=0)であった。著者らは、本番運用に向けた準備状況として安定性を重視している。
  • 本番パイプラインの実行では、複数の疾患領域にまたがる1,288の治療アームについて時間的毒性を抽出し、論文では、実データにおける再現性が導入(デプロイ)の決定要因であると結論づけている。

Abstract

時間トキシシティ(臨床試験への参加によって累積される医療接触日数)は、プロトコル文書から抽出するうえで重要である一方、作業負荷の高い指標です。私たちは、評価スケジュール(Schedule of Assessments)表から時間トキシシティを自動抽出するための、LLMベースのパイプラインTimeToxを開発しました。TimeToxはGoogleのGeminiモデルを3つの段階で用います:長文のプロトコルPDFからの要約抽出、各治療群について累積時間点6つでの時間トキシシティの定量化、そして位置ベースの群マッチングによる複数実行のコンセンサスです。合成スケジュール20件(240件の比較)に対して検証を行い、実世界の腫瘍学プロトコル644件で再現性も評価しました。2つのアーキテクチャを比較しました:単一パス(標準のバニラ)と二段階(構造の抽出→計数)。二段階パイプラインは、合成データにおいて臨床的に許容可能な精度を100%達成しました(\pm3日以内)(合成データのMAE 0.81日)一方、バニラは41.5%(MAE 9.0日)でした。しかし実世界のプロトコルでは、バニラ・パイプラインの方が再現性が優れていました:644件のプロトコルに対して3回の実行で、臨床的に許容可能な精度95.3%(IQR \leq 3日)を示し、完全な安定性は82.0%(IQR = 0)でした。実運用のパイプラインでは、複数の疾患領域にまたがる1,288の治療群について時間トキシシティを抽出しました。合成ベンチマークでの精度ではなく、実世界データにおける抽出の安定性が、実運用におけるLLM導入の決定要因となります。

広告