AI Navigate

ファインチューニングで解決、プロンプトを使わずに臨床ノートの偏った言語を識別する

arXiv cs.CL / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 臨床ノートに含まれる偏った言語を、スティグマ化、特権付与、または中立のカテゴリに分類・検出する枠組みを、感情的に価値づけられた語彙の辞書を用いて提案します。
  • ゼロショット・プロンプティング、インコンテキスト学習、監督付きファインチューニングを、エンコーダー専用モデル(GatorTron)と生成型LLM(Llama)で比較し、語彙的に前処理された入力を用いたファインチューニングが最も良い性能を示すことを示しました。
  • MIMIC-IVを用いた外部検証は、ドメイン間の一般化が限定的であることを示し、OB-GYNと他の専門分野間で転送するとF1が大幅に低下するため、ドメインシフトを示しています。
  • 本研究は、専門分野別のファインチューニングが意味的変化を捉え、臨床医の信頼を損ねたり患者に害を及ぼしたりする誤分類リスクを低減するために不可欠であると結論づけています。
本文: arXiv:2603.10004v1 お知らせタイプ: new 要旨:臨床文書には、スティグマ化または特権付与の価値を伴う感情的な表現が含まれることがあります。私たちは。そのような言語をスティグマ化、特権付与、あるいは中立として検出・分類する枠組みを提示します。感情的な価値を評価された偏見語彙の厳選辞書を構築しました。次に、辞書ベースのマッチングを用いて、OB-GYN分娩ノート(Mount Sinai Hospital, NY)および複数の専門領域に跨るMIMIC-IV退院サマリーからテキストのチャンクを抽出しました。3名の臨床医がすべてのチャンクに注釈を付け、専門領域と医療システム全体での価値付けパターンを特徴付けられるようにしました。 私たちは、エンコーダー専用モデル(GatorTron)と生成的大規模言語モデル(Llama)を対象に、ゼロショットプロンプティング、インコンテキスト学習、および教師ありファインチューニングという複数の分類戦略を比較しました。語彙的に前処理された入力を用いたファインチューニングは、プロンプト手法より一貫して上回る性能を示しました。GatorTronはOB-GYNのテストセットでF1スコア0.96を達成し、より大きな生成モデルを上回りつつ、最小限のプロンプト設計と少ない計算資源で済みました。MIMIC-IVでの外部検証では、ドメイン横断的な一般化は限定的(F1 < 0.70、44%低下)であることが明らかになりました。より広いMIMIC-IVデータセットで訓練した場合、OB-GYNでの一般化は向上しました(F1 = 0.71、11%低下)が、精度の低下という代償を払いました。 我々の知見は、感情的価値分類においてファインチューニングがプロンプトよりも優れており、臨床的に適切な性能を達成するには、特定の医療専門分野に適応させる必要があることを示しています。同じ語彙が専門分野によって異なる感情的価値を帯びることがあります。ある文脈で臨床的意味を持つ語が、別の文脈ではスティグマ化の対象になることがあります。偏り検出において、誤分類リスクが臨床医の信頼を損なったり患者に害を及ぼしたりする場合には、これらの意味的変化を捉えるための専門分野別ファインチューニングが不可欠です。 * 同等の貢献。