広告

ポルトガル語における臨床固有表現認識:現代的BERTモデルとLLMのベンチマーク

arXiv cs.CL / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、SemClinBrの公開コーパスおよび非公開の乳がんデータセットを用いて、ポルトガル語の臨床固有表現認識(NER)に関して複数のBERTファミリーモデルとLLMをベンチマーク評価する。
  • BioBERTpt、BERTimbau、ModernBERT、mmBERTといったモデルを、同一の学習・評価条件の下で、GPT-5やGemini-2.5のようなLLMと比較する。
  • mmBERT-baseは、報告されている最良の性能としてmicro F1 = 0.76を達成し、他の検証済みモデルを上回るとともに、ポルトガル語の臨床NERに対して高い適合性を示している。
  • データの不均衡を緩和するための手法(反復的層化、重み付き損失、オーバーサンプリング)を検証し、反復的層化によってクラスのバランスが改善され、全体としての結果も向上することを見出す。
  • 論文は、多言語BERTモデル—特にmmBERT—がポルトガル語の臨床NERに有効であり、バランスを取った分割戦略と組み合わせれば、計算資源を限られた条件でもローカル実行できると結論づけている。

概要: 臨床ノートには有用な非構造化情報が含まれています。固有表現認識(NER)により医療概念の自動抽出が可能になりますが、ポルトガル語に関するベンチマークは依然として乏しいのが現状です。本研究では、ポルトガル語の臨床NERに対するBERTベースモデルおよび大規模言語モデル(LLM)を評価し、多ラベルの不均衡に対処するための戦略を検証することを目的としました。BioBERTpt、BERTimbau、ModernBERT、mmBERTを、GPT-5やGemini-2.5のようなLLMと比較しました。使用したデータは公開のSemClinBrコーパスと、非公開の乳がんデータセットです。モデルは同一条件で学習し、適合率(precision)、再現率(recall)、F1スコアで評価しました。クラス不均衡を緩和するために、反復的層化(iterative stratification)、重み付き損失(weighted loss)、オーバーサンプリング(oversampling)を検討しました。mmBERT-baseモデルが最良の性能を達成しました(micro F1 = 0.76)。これは他のすべてのモデルを上回ります。反復的層化によりクラスのバランスが改善され、全体的な性能も向上しました。多言語BERTモデル、特にmmBERTはポルトガル語の臨床NERに対して強力な性能を発揮し、限られた計算資源でもローカルで実行できます。バランスを考慮したデータ分割戦略は、さらに性能を高めます。

広告