適応すべきか否か:医療知識を意識した大規模言語モデルの価値を再考する
arXiv cs.CL / 2026/4/9
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、医療知識を意識した(臨床)LLMが、複数選択式の臨床QAにおいて英語とスペイン語で、汎用LLMに対して確実に優位かどうかを検証する。評価は標準ベンチマークに加え、摂動(perturbation)ベースの頑健性ベンチマークも用いる。
- 結果として、臨床LLMは英語タスクで汎用モデルを一貫して上回るわけではないことが示される。改善は小幅で、敵対的・摂動下の評価でも不安定であると述べられている。
- 一方で、スペイン語のサブセットでは、導入されたMarmoka 8Bの臨床LLMファミリが、Llama系の汎用モデルの対照よりも良い成績を示す。これは、適応が低リソース環境で有効になり得ることを示唆している。
- 著者らはさらに、汎用モデルと臨床モデルの双方が、指示追従(instruction following)や厳格な出力形式(strict output formatting)においてしばしば困難を示すことを見出している。したがって、現在の短い形式のMCQAベンチマークは、真の医療能力の側面を見落としている可能性がある。
- 低リソース言語向けの頑健な医療LLMは、医療コーパスおよび指示データを用いた継続的なドメイン適応型事前学習(continual domain-adaptive pretraining)によって開発できると提案している。


