医療の多肢選択式問題へのLLM適用におけるドメイン・ファインチューニングとRAGの比較:4Bパラメータ規模での統制実験

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本研究は、4Bパラメータ規模で、医療分野の多肢選択式QAに対するドメイン・ファインチューニングと retrieval-augmented generation(RAG)の効果を、統制した2×2設計で直接比較している。
  • モデルサイズ、プロンプト・テンプレート、デコード温度、リトリーバル処理、評価プロトコルなどの主要要因は固定し、(i)ドメイン適応済みかどうか(Gemma 3 4B vs. MedGemma 4B)と(ii)医療知識コーパスから取得したパッセージをプロンプトに挿入するかどうかのみを変えている。
  • MedQA-USMLEの4択テスト分割(1,273問)を用い、各問を複数回呼び出して多数決で評価すると、ドメイン・ファインチューニングが一般4Bベースラインより+6.8ポイントの精度向上を示す(53.3% vs. 46.4%、McNemar p < 10^-4)。
  • 医療知識コーパスからの取得文を加えるRAGは、汎用モデルでもドメイン適応モデルでも統計的に有意な改善をもたらさず、後者ではむしろわずかに負の点推定(-1.9 pp、p = 0.16)が観測された。
  • この規模・ベンチマークでは、重みに符号化されたドメイン知識が、文脈へのリトリーバルで与えるドメイン知識より優位であると結論づけており、再現のためにコードとJSONLトレースを公開している。

Abstract

医療の質問応答に小規模なオープンウェイトの大規模言語モデル(LLM)を導入する実務者は、繰り返し発生する設計上の選択に直面します。すなわち、ドメインで微調整したモデルに投資するのか、それとも汎用モデルを維持し、推論時に取得拡張生成(RAG)を通じてドメイン知識を注入するのか、という選択です。本研究では、モデルサイズ、プロンプトテンプレート、デコーディング温度、取得パイプライン、評価プロトコルを固定し、(i)モデルがドメイン適応されているかどうか(Gemma 3 4B vs. MedGemma 4B。いずれも4ビット量子化し、Ollama経由で提供)と、(ii)医療知識コーパスから取得した文がプロンプトに挿入されるかどうか、の2点のみを変えることで、このトレードオフを切り分けます。2×2の設計の4つの条件すべてを、MedQA-USMLEの4択テスト分割全体(1,273問)で評価し、各質問につき3回の繰り返しを行います(合計15,276回のLLM呼び出し)。ドメインでの微調整は、一般的な4Bベースラインに対して多数決精度で +6.8 パーセントポイントの向上をもたらします(53.3% vs. 46.4%、McNemar p < 10^-4)。MedMCQAの説明に対するRAGは、いずれのモデルでも統計的に有意な改善を生みません。また、ドメイン微調整モデルでは、点推定はわずかに負です(-1.9 pp、p = 0.16)。この規模・このベンチマークにおいては、重みに符号化されたドメイン知識が、文脈として与えられるドメイン知識を支配します。我々は、再現を可能にするために、実験の完全なコードとJSONLトレースを公開します。