要旨: 腫瘍学の電子カルテ(EMR)に保持されているデータのかなりの部分は、非構造化された医療提供者の記録(プロバイダーノート)に含まれています。そこには、化学療法(またはがん治療)の結果、さまざまなバイオマーカー、腫瘍の部位、患者の腫瘍のサイズや増大(成長)パターンなどが含まれます(これらに限定されません)。臨床研究は、腫瘍内科医の大多数が、EMRの関連する構造化フィールドではなく、自然言語でこれらの価値ある洞察を自らの記録に記載することに対して、十分に抵抗がないことを示しています。本研究の主要な貢献は、腫瘍学領域に焦点を当て、プロバイダーノートを処理して上記の貴重な医療知識および表現型(フェノタイプ)を抽出するための、LLMベースの枠組みを報告することです。本論文では、提案するLLMフレームワークを用いて乳がんに関連する表現型を抽出することに注力し、その後、知識駆動型のアノテーションシステムとNCIt Ontology Annotatorを組み合わせて用いた先行研究と、その性能を比較します。研究結果は、LLMベースの情報抽出フレームワークが、古典的なオントロジーに基づく手法と同等の精度で表現型を抽出するよう、容易に適応できることを示しています。しかしながら、一度学習した後は、他のがん種や疾患に対応するように容易に微調整できることも示されました。
臨床ノートから乳がんの表現型を抽出する:LLMと古典的なオントロジー手法の比較
arXiv cs.CL / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究は、EMR内の非構造化の腫瘍学的臨床ノートから、治療アウトカム、バイオマーカー、腫瘍の位置、大きさ、増殖パターンなどの構造化された乳がん表現型を抽出するための、LLMベースのフレームワークを提示する。
- LLMアプローチを、NCIt Ontology Annotatorを用いて注釈付けする、先行するオントロジー/知識駆動型の手法と比較・評価する。
- 結果は、LLMによる情報抽出フレームワークが、古典的なオントロジーに基づく手法と同等の精度を達成できることを示し、そのうえで自然言語のノートを活用できる。
- 著者らは、訓練済みフレームワークが適応可能であり、乳がん以外の他のがん種や疾患を対象として微調整できると主張する。




