Team Fusion@ SU@ BC8 SympTEMIST track: 症状認識とリンク付けのためのトランスフォーマーベースのアプローチ

arXiv cs.CL / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、RoBERTaベースのトークン分類器を用いて、症状データに対するSympTEMISTの固有表現抽出(NER)およびエンティティリンキング(EL)を行うトランスフォーマーベースのシステムを提案する。
  • NERでは、BiLSTMおよびCRF層を追加したRoBERTaモデルを微調整し、トークン単位のエンティティ抽出を改善するために拡張した学習データセットを活用する。
  • エンティティリンキングでは、SapBERT XLMR-Largeを用いてクロスリンガルな候補を生成し、知識ベース内のエントリとのコサイン類似度によってそれらを順位付けする。
  • 著者らは、EL(および全体)の精度向上において、知識ベースの選択が最も影響の大きい要因であると報告している。
  • 本研究は新しいarXivリリースとして提示され、症状に関連するバイオメディカル/NLPパイプラインにおける研究手法として位置付けられている。

Abstract

本論文では、SympTEMIST の固有表現認識(NER)およびエンティティリンキング(EL)タスクを解決するための、トランスフォーマーベースのアプローチを提示する。NER については、拡張した学習セット上で、BiLSTM および CRF レイヤーを備えた RoBERTa ベース(1)のトークンレベル分類器を微調整する。エンティティリンキングは、クロスリンガルな SapBERT XLMR-Large(2)を用いて候補を生成し、知識ベースに対してコサイン類似度を計算することで実行する。知識ベースの選択は、モデル精度への影響が最も大きいことが示される。