ELM: 人口ベースのがん登録データベースにおける自動腫瘍グループ分類のための言語モデルのハイブリッドアンサンブル
arXiv cs.CL / 2026/3/20
📰 ニュースTools & Practical UsageIndustry & Market MovesModels & Research
要点
- ELMは、各レポートの上部と下部に対応する計6つのエンコーダー専用言語モデル(上部用に3つ、下部用に3つ)を大規模言語モデルと組み合わせ、6つのエンコーダーのうち5つが腫瘍グループを割り当てることに同意した場合に仲裁する役割を果たす大規模言語モデルを含むハイブリッドアンサンブルです。
- 19の腫瘍グループにまたがる2,058件の病理レポートを対象としたホールドアウトテストセットにおいて、ELMは加重精度と再現率を0.94に達成し、エンコーダー専用アンサンブル(F1=0.91)およびルールベースのアプローチに対して有意に優位であった(p<0.001)。
- ブリティッシュコロンビア州がん登録機関での実運用において、ELMは手動レビューを約60〜70%削減し、年間約900人時の節約を実現するとともにデータ品質を維持した。
- 本研究は、実世界の人口ベースのがん登録を対象とする腫瘍グループ分類のための、ハイブリッドな小型エンコーダー専用モデルとLLMアーキテクチャの初めての成功事例の展開であると主張している。
- ELMは、白血病、リンパ腫、皮膚がんなどの難易度の高いカテゴリで顕著な改善をもたらし、F1スコアの大幅な向上を示している。