広告

医療テキスト要約のためのパラメータ効率的ファインチューニング:LoRA、プロンプトチューニング、フルファインチューニングの比較研究

arXiv cs.CL / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、PubMedデータセットを用いてFlan-T5モデルによる医療テキスト要約における、パラメータ効率的ファインチューニング(PEFT)手法――LoRA、プロンプトチューニング、フルファインチューニング――を研究する。
  • 複数のランダムシードにまたがる実験の結果、LoRAは一貫してフルファインチューニングよりも強力であり、Flan-T5-Largeで43.52±0.18のROUGE-1を達成する一方、学習するパラメータは全体の約0.6%に留まる。
  • 同一のモデルファミリ比較のもとで、フルファインチューニングは40.67±0.21のROUGE-1と劣後しており、全パラメータを更新することが必ずしも必要ではないことを示している。
  • 感度分析により、LoRAのランクおよびプロンプトトークン数が性能に与える影響を評価し、PEFTのハイパーパラメータ選定に関する実践的な指針を提示する。
  • 著者らは、低ランク制約が有益な正則化として働き得ると主張しており、ドメイン適応には全パラメータの更新が必要だという前提に疑問を投げかける。また、関連コードを公開している。

Abstract

医療テキスト要約のような領域固有のタスクに対して大規模言語モデルをファインチューニングするには、多大な計算資源が必要となります。パラメータ効率の良いファインチューニング(PEFT)手法は、少数のパラメータのみを更新することで有望な代替案を提供します。本論文では、PubMedの医療要約データセット上で、Flan-T5モデルファミリーを対象に、3つの適応アプローチ――低ランク適応(Low-Rank Adaptation: LoRA)、プロンプトチューニング、フルファインチューニング――を比較します。複数のランダムシードによる実験を通じて、LoRAが一貫してフルファインチューニングを上回ることを示します。具体的には、フルファインチューニング(40.67 +/- 0.21)と比較して、学習可能パラメータが0.6%にとどまるにもかかわらず、Flan-T5-Largeで43.52 +/- 0.18のROUGE-1を達成しています。感度分析では、LoRAのランクとプロンプトトークン数が与える影響を調べます。これらの結果は、低ランク制約が有益な正則化をもたらすことを示唆しており、全パラメータの更新が必須であるという前提に挑戦します。コードはhttps://github.com/eracoding/llm-medical-summarization で公開されています

広告