MedCL-Bench: 生物医学NLPにおける安定性・効率性のトレードオフとスケーリングのベンチマーク

arXiv cs.AI / 2026/3/18

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • MedCL-Benchは、生物医学NLPにおける継続学習を評価するための、統一されたタスク多様性を備えたベンチマークを導入し、標準化されたプロトコルの不足に対処します。
  • 本手法は、五つのタスクファミリーにまたがる十の生物医学NLPデータセットを取り扱い、八つのタスク順序にわたり十一の継続学習戦略を評価し、保持、転移、およびGPU時間コストを報告します。
  • バックボーンとタスク順序を横断して、直接的な逐次ファインチューニングは破局的忘却を引き起こし、継続学習アプローチの必要性を強調します。
  • CL手法の中で、パラメータ分離はGPU時間あたりの保持を最も高く提供し、リプレイは高い計算コストにもかかわらず強力な保護を提供し、正則化は限定的な利益しか生みません。
  • 忘却はタスク依存であり、多ラベルのトピック分類が最も脆弱で、制約付き出力タスクはより堅牢である。MedCL-Benchは展開前にモデル更新を監査するための再現性のあるフレームワークを提供します。

Abstract

医療用言語モデルは、証拠と用語が進化するにつれて更新される必要があるが、逐次的な更新は壊滅的な忘却を引き起こす可能性がある。生物医学NLPには多くの静的ベンチマークがあるものの、標準化されたプロトコル下で継続学習を評価するための、タスク多様性を持つ統一的なベンチマークは存在しない。私たちは MedCL-Bench を導入する。これは 5 つのタスクファミリにまたがる 10 の生物医学NLPデータセットをストリーミングし、8 つのタスク順序にわたって 11 の継続学習戦略を評価し、保持、転移、および GPU-時間コストを報告する。バックボーンとタスク順序を問わず、新しいタスクに対する直接的な逐次ファインチューニングは壊滅的な忘却を誘発し、以前のタスクでの更新による性能低下を引き起こす。継続学習手法は、異なる保持-計算のフロンティアを占める。パラメータのアイソレーションは GPU-時間あたりの最良の保持を提供し、リプレイはより高コストで強力な保護を提供し、正則化は限定的な利益しか生まない。忘却はタスク依存性があり、多ラベルのトピック分類が最も脆弱で、制約された出力タスクはより頑健である。MedCL-Bench はデプロイ前のモデル更新を検証するための再現可能なフレームワークを提供する。)