生物医学の専門化は今でも価値があるのか?新しいフランスのヘルスコーパスを用いたドメイン適応型言語モデリングからの洞察

arXiv cs.CL / 2026/4/9

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文では、小〜中規模のLLMをフランスの生物医学領域向けに特化するためのドメイン適応型事前学習(DAPT)を評価し、非英語環境における領域性能の向上を目指す。
  • DAPTが、許容できない汎用能力の低下を引き起こさずに効果をもたらすかどうかを検討し、領域での利得とより広い汎化のトレードオフに取り組む。
  • 著者らは、商用およびオープンソース利用のために、完全にオープンライセンスのフランス語生物医学コーパスと、学習済みの特化型フランス語生物医学LLMを公開する。
  • 結果は、先行研究の知見と比べてDAPTの全体的な有効性に疑問を投げかける一方で、適切に適用すれば、より小規模かつ資源制約のある条件下でもDAPTが実行可能になり得ることを示唆する。
  • 本研究では、DAPT後のモデル統合(マージ)が、汎化に関するトレードオフを緩和するために不可欠になり得ること、また場合によっては対象の特化タスクで性能が向上し得ることを明らかにする。

要旨: 大規模言語モデル(LLM)は多様な分野にわたって驚くべき能力を示しているものの、特化した領域への適応は依然として難しく、特に非英語の言語においてはその傾向が強い。本研究では、フランス語のバイオメディカル領域に向けて、小型から中型のLLMを継続事前学習によって専門化するための戦略として、ドメイン適応事前学習(DAPT)を調査する。主要な研究課題として、(1) ドメイン適応のための専門化された継続事前学習の実現可能性、(2) ドメイン固有の性能向上と一般的能力の低下との関係、の2点に取り組む。我々の貢献は、商用およびオープンソースの用途に適した、完全にオープンライセンスされたフランス語バイオメディカル・コーパスの公開、専門化されたフランス語バイオメディカルLLMの学習と公開、ならびにDAPTの実装に関する新規な知見を含む。提案手法は、高品質なフランス語バイオメディカル文書の収集と整備、DAPTを用いた因果言語モデリング手法の検討、そして広範な比較評価の実施を含む。我々の結果は、先行研究とは対照的に、DAPTの有効性に疑問を投げかける。しかし一方で、適切な条件のもとであれば、より小規模で資源が制約された状況においてはDAPTが実現可能であることを強調する。本論文の知見はさらに、DAPT後のモデル統合(model merging)が一般化に関するトレードオフを緩和するために不可欠であり、場合によっては、DAPTが向けられた特化タスクにおいて性能が向上することさえ示唆している。