Abstract
時間トキシシティ(臨床試験への参加によって累積される医療接触日数)は、プロトコル文書から抽出するうえで重要である一方、作業負荷の高い指標です。私たちは、評価スケジュール(Schedule of Assessments)表から時間トキシシティを自動抽出するための、LLMベースのパイプラインTimeToxを開発しました。TimeToxはGoogleのGeminiモデルを3つの段階で用います:長文のプロトコルPDFからの要約抽出、各治療群について累積時間点6つでの時間トキシシティの定量化、そして位置ベースの群マッチングによる複数実行のコンセンサスです。合成スケジュール20件(240件の比較)に対して検証を行い、実世界の腫瘍学プロトコル644件で再現性も評価しました。2つのアーキテクチャを比較しました:単一パス(標準のバニラ)と二段階(構造の抽出→計数)。二段階パイプラインは、合成データにおいて臨床的に許容可能な精度を100%達成しました(\pm3日以内)(合成データのMAE 0.81日)一方、バニラは41.5%(MAE 9.0日)でした。しかし実世界のプロトコルでは、バニラ・パイプラインの方が再現性が優れていました:644件のプロトコルに対して3回の実行で、臨床的に許容可能な精度95.3%(IQR \leq 3日)を示し、完全な安定性は82.0%(IQR = 0)でした。実運用のパイプラインでは、複数の疾患領域にまたがる1,288の治療群について時間トキシシティを抽出しました。合成ベンチマークでの精度ではなく、実世界データにおける抽出の安定性が、実運用におけるLLM導入の決定要因となります。