医療の多肢選択式問題へのLLM適用におけるドメイン・ファインチューニングとRAGの比較:4Bパラメータ規模での統制実験
arXiv cs.CL / 2026/4/28
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本研究は、4Bパラメータ規模で、医療分野の多肢選択式QAに対するドメイン・ファインチューニングと retrieval-augmented generation(RAG)の効果を、統制した2×2設計で直接比較している。
- モデルサイズ、プロンプト・テンプレート、デコード温度、リトリーバル処理、評価プロトコルなどの主要要因は固定し、(i)ドメイン適応済みかどうか(Gemma 3 4B vs. MedGemma 4B)と(ii)医療知識コーパスから取得したパッセージをプロンプトに挿入するかどうかのみを変えている。
- MedQA-USMLEの4択テスト分割(1,273問)を用い、各問を複数回呼び出して多数決で評価すると、ドメイン・ファインチューニングが一般4Bベースラインより+6.8ポイントの精度向上を示す(53.3% vs. 46.4%、McNemar p < 10^-4)。
- 医療知識コーパスからの取得文を加えるRAGは、汎用モデルでもドメイン適応モデルでも統計的に有意な改善をもたらさず、後者ではむしろわずかに負の点推定(-1.9 pp、p = 0.16)が観測された。
- この規模・ベンチマークでは、重みに符号化されたドメイン知識が、文脈へのリトリーバルで与えるドメイン知識より優位であると結論づけており、再現のためにコードとJSONLトレースを公開している。
