CLiGNet: 臨床転記からの医療専門領域分類のための臨床ラベル相互作用グラフネットワーク
arXiv cs.AI / 2026/3/25
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 著者らは、MTSamplesベンチマークを用いた先行研究においてデータリークの問題を特定(SMOTEを学習/テスト分割の前に適用していたため)し、40の医療専門領域にまたがるリークのないベンチマークを公開することで、課題が従来報告よりも難しいことを示した。
- Bio ClinicalBERTエンコーダと、専門領域ラベルグラフ上で動作する2層GCNを組み合わせたCLiGNetを提案する。ラベルグラフは、意味的類似性に基づくほか、ICD-10章の事前知識(priors)から構築する。
- CLiGNetは、極端なクラス不均衡(181:1)に対処するため、ラベルごとの注意(attention)ゲーティングと焦点付き二値クロスエントロピー損失(focal binary cross-entropy loss)を用い、複数のベースラインに対してマクロF1を改善する。
- 実験では、GCNのラベルグラフ成分が最大の改善をもたらし(約+0.066のマクロF1)、またPlattスケーリングによる校正により、期待校正誤差(Expected Calibration Error)を0.007まで低減し、確率の信頼性を高める。
- 本論文には、失敗分析(専門領域の取り違え、希少クラス挙動、文書長の影響)に加え、臨床NLPの導入判断を支えるためのトークンレベルのIntegrated Gradientsによる帰属(attribution)が含まれている。
