継続的事前学習は、医療分野における汎用言語モデルと専門特化言語モデルの性能差を埋められるか?

arXiv cs.CL / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、継続的事前学習とモデル統合(マージ)によって、医療分野(ドイツ語)における小規模の専門特化LLMと大規模汎用LLMの性能差を縮められることを提案している。
  • 著者らは、非英語の専門データが不足している課題に対処するため、FineWeb2から派生した高品質なドイツ語医療コーパス(FineMed-de)を構築した。
  • FineMed-deを用いて、パラメータ数7B〜24Bの3つの既存LLMを継続的に事前学習しマージすることで、DeFineMedモデルファミリーを作成し、ドイツ語の医療ベンチマークで小規模モデルの性能を大きく向上させた。
  • 大幅に大きい指示追従モデル(Mistral-Small-24B-Instruct)に対するペアワイズ勝率分析では、ドメイン適応後に約3.5倍の勝率上昇が示され、複雑な医療の指示追従タスクで7Bの専門特化モデルが資源効率の高い選択肢になり得ることが示唆された。
  • 統合(マージ)により指示追従能力は回復できる一方で、言語の混在や冗長性の増加といったトレードオフが生じることが失敗モード分析で明らかになり、今後はより狙いを定めた微調整が必要だと述べている。

Abstract

本論文は、継続的な事前学習とマージによるドメイン適応を通じて、小さな専門特化モデルと、それより大幅に大きい汎用モデルとの間の性能ギャップを縮めます。非英語の専門データが不足しているという問題に対処するため、FineWeb2 から高品質なドイツ語医療コーパス(FineMed-de)を構築します。このコーパスを用いて、(7B から 24B のパラメータ範囲にある)3つのよく知られた LLM を継続的に事前学習し、マージすることで、DeFineMed モデルファミリーを作成します。包括的な評価により、専門化がドイツ語医療ベンチマークにおける 7B モデルの性能を大幅に向上させることが確認されます。さらに、Qwen2.5 ベースのモデルに対するペアワイズの勝率分析では、ドメイン適応によって、はるかに大きい Mistral-Small-24B-Instruct に対する勝率が約 3.5 倍に増加することが示されます。これらの証拠は、複雑な医療に関する指示追従タスクに対して、専門化された 7B モデルが競争力のある、資源効率の高い解決策であることを位置づけます。モデルマージによって指示追従能力はうまく復元される一方で、その後の失敗モード分析により、言語の混在や冗長性の増加といった、内在するトレードオフが明らかになり、今後の研究ではより的を絞った追加学習(ファインチューニング)が必要であることが示唆されます。本研究は、専門特化 LLM を開発するための堅牢でコンプライアンスに適合した手法を提供し、ドイツ語圏の医療における実運用の基盤となります。