生物医学RAGにおける検索戦略のベンチマーク:統制的な実証研究
arXiv cs.CL / 2026/5/5
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 本研究は、固定の生成モデル(GPT-4o-mini)、ChromaDB、OpenAIのtext-embedding-3-smallを用い、検索戦略の違いだけを切り分ける形で、生物医学向けのRetrieval-Augmented Generation(RAG)パイプラインで5種類の検索戦略をベンチマークしました。
- BioASQ由来の250件の生物医学QAを対象に、DeepEvalの指標(文脈に基づく適合率/再現率、忠実性、回答関連性)と95%信頼区間で評価した結果、Cross-Encoder Rerankingが最も高い総合スコア(0.827)と最高の文脈適合率(0.852)を達成しました。
- Recall志向の設計であるMulti-Query Expansionは文脈適合率が最も低く(0.671)、単純なクエリ多様化が検索ノイズを増やし得ることを示唆しています。
- Maximal Marginal Relevance(MMR)は多様性の観点では寄与する一方で回答の関連性を下げ、Denseベクトル検索は総合スコア(0.822)が最上位に非常に近い結果でした。
- すべてのRAG条件は、回答関連性でno-contextアブレーション(0.287)を大きく上回り(0.658–0.701)、さらにパイプライン、ハイパーパラメータ、評価コードは公開されています。

