Retrieve、Then Classify:コーパスに基づく臨床バリュ―セット作成の自動化
arXiv cs.CL / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、臨床バリュ―セット作成(標準化語彙の中で臨床概念を定義する全コードを特定する作業)に対し、Retrieval-Augmented Set Completion(RASC)を提案し、LLMにコードを直接生成させるのではなく、類似する既存バリュ―セットをコーパスから検索して候補コードを分類します。
- RASCは、出力空間を標準語彙全体から、検索で得られるはるかに小さな候補プールへ縮小することで、統計的な効率を高めることを狙っています。
- VSACの公開データセット11,803件で評価し(本タスクの初の大規模ベンチマーク)、SAPBertのクロスエンコーダはAUROC~0.852、バリュ―セット単位F1~0.298を達成し、単純なMLPやretrieval-onlyのベースラインより優れました。
- zero-shot GPT-4o(バリュ―セット単位F1~0.105で、返されたコードの多くがVSACに存在しない)と比べて、RASCは真陽性あたりの無関係候補数を大きく削減し、バリュ―セットが大きくなるほど優位性が拡大します。
- 著者らは複数の分類器タイプ(SAPBertベースのクロスエンコーダとLightGBM)でも一貫した改善を報告しており、ベンチマークデータセット作成コードと学習コードをGitHubで公開しています。
