臨床試験ナラティブにおける投与ミスの自動検出:LightGBMによるマルチモーダル特徴量エンジニアリング
arXiv cs.CL / 2026/4/23
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- 本研究は、勾配ブースティング(LightGBM)とマルチモーダル特徴量エンジニアリングを用いて、非構造化の臨床試験ナラティブから投与ミスを自動検出するシステムを提案しています。
- 3,451特徴量という大規模で多様な特徴量セットを構築し、TF-IDFや文字n-gramなどの従来型NLPに加えて、密な意味埋め込み(all-MiniLM-L6v2)、医療ドメインのパターン、さらにBiomedBERT/DeBERTa-v3由来のトランスフォーマースコアを、9つのテキストフィールドから抽出します。
- クラス不均衡が大きいCT-DEBベンチマーク(陽性率4.9%)で評価したところ、5-foldアンサンブルによりテストROC-AUC 0.8725を達成し、交差検証では0.8833 ± 0.0091 AUCでした。
- アブレーションでは、文埋め込みを除くことが最も大きな性能低下(約2.39%)につながり、特徴量効率の分析では上位500〜1,000特徴量の選択が全特徴量使用を上回ることが示されています。
- 特徴量選択が有効な正則化手法として働くこと、そして疎な語彙特徴が密な表現と並んで、専門的な臨床テキスト分類において補完的な価値を持つことが強調されています。




