要旨: 臨床テキスト分類では、専門的に微調整されたモデル(BERT系)と、汎用の大規模言語モデル(LLM)のどちらを選ぶべきかを決める必要があるが、いずれもすべての事例において優位を保つことはない。そこで本研究では、臨床テキストのための学習による延期(Learning to Defer for clinical text; L2D-Clinical)を提案する。これは、不確実性シグナルとテキストの特性に基づいて、BERT分類器がどのときにLLMへ延期(defer)すべきかを学習する枠組みである。従来のL2D研究が、人間の専門家は普遍的に優れていると仮定して延期先を人間に限定していたのに対し、本アプローチは、LLMがBERTを補完するときに、適応的な延期によって精度を向上させることを可能にする。評価は2つの英語の臨床タスクで行う:(1)ADE検出(ADE Corpus V2)。ここではBioBERT(F1=0.911)がLLM(F1=0.765)を上回る。(2)治療アウトカム分類(MIMIC-IV。複数LLMによるコンセンサスのグラウンドトゥルースを使用)。ここではGPT-5-nano(F1=0.967)がClinicalBERT(F1=0.887)を上回る。ADEにおいて、L2D-ClinicalはF1=0.928(BERTに対して+1.7ポイント)を達成した。これは、LLMの高い再現率がBERTの取りこぼしを補える7%の事例に対して選択的に延期することで実現している。MIMICにおいて、L2D-ClinicalはF1=0.980(BERTに対して+9.3ポイント)を達成した。これは、ケースのわずか16.8\%のみをLLMに延期することで実現している。重要な洞察は、L2D-ClinicalがLLMの強みを選択的に活用しつつ、APIコストを最小化するように学習する点にある。
L2D-Clinical:臨床テキスト分類における適応的モデル選択のための「延期(defer)」学習
arXiv cs.AI / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、専門のBERTベース臨床テキスト分類器が、不確実性シグナルやテキスト特性に基づいて汎用的なLLMへいつ延期(defer)すべきかを学習する枠組みL2D-Clinicalを提案する。
- 従来の「延期学習」手法が、単一の専門家(人間)が常に普遍的に優れていると仮定していたという限界に取り組み、BERTとLLMはそれぞれ異なるインスタンスで優位になり得ることを示す。
- ADE検出では、BioBERT(F1=0.911)がLLM(F1=0.765)を上回るが、L2D-Clinicalは、LLMの高い再現率を活かすためにケースの7%のみをLLMへ延期することで、BERTを上回るF1=0.928を達成する。
- 治療アウトカム分類(MIMIC-IV)では、GPT-5-nano(F1=0.967)がClinicalBERT(F1=0.887)を上回り、L2D-Clinicalは、ケースの16.8%をLLMへ延期することでF1=0.980に到達する。
- 本研究は、すべての入力をLLMにルーティングするのではなく、LLMの強みを選択的に活用しつつAPI利用を最小化することで、コストを意識したデプロイを強調している。




