生物医学RAGにおける検索戦略のベンチマーク:統制的な実証研究

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本研究は、固定の生成モデル(GPT-4o-mini)、ChromaDB、OpenAIのtext-embedding-3-smallを用い、検索戦略の違いだけを切り分ける形で、生物医学向けのRetrieval-Augmented Generation(RAG)パイプラインで5種類の検索戦略をベンチマークしました。
  • BioASQ由来の250件の生物医学QAを対象に、DeepEvalの指標(文脈に基づく適合率/再現率、忠実性、回答関連性)と95%信頼区間で評価した結果、Cross-Encoder Rerankingが最も高い総合スコア(0.827)と最高の文脈適合率(0.852)を達成しました。
  • Recall志向の設計であるMulti-Query Expansionは文脈適合率が最も低く(0.671)、単純なクエリ多様化が検索ノイズを増やし得ることを示唆しています。
  • Maximal Marginal Relevance(MMR)は多様性の観点では寄与する一方で回答の関連性を下げ、Denseベクトル検索は総合スコア(0.822)が最上位に非常に近い結果でした。
  • すべてのRAG条件は、回答関連性でno-contextアブレーション(0.287)を大きく上回り(0.658–0.701)、さらにパイプライン、ハイパーパラメータ、評価コードは公開されています。

Abstract

生成拡張(RAG)は、大規模言語モデル(LLM)の出力を外部知識によって根拠づけるための、確立された有力な手法です。しかし、生物医学のような高リスクな領域で、どの検索戦略が最も効果的かという問いには、十分に統制された、しかも複数の指標での体系的な検証が、相応の形では行われていません。本論文では、生物医学の質問応答RAGパイプラインにおいて、5つの検索戦略――Dense Vector Search(密ベクトル探索)、Hybrid BM25 + Dense retrieval(ハイブリッドBM25+密探索)、Cross-Encoder Reranking(クロスエンコーダ再ランキング)、Multi-Query Expansion(複数クエリ拡張)、Maximal Marginal Relevance(MMR)――を体系的に実証的に比較します。すべての戦略は、固定の生成モデル(GPT-4o-mini)、共通のベクトルストア(ChromaDB)、そしてOpenAIのtext-embedding-3-small埋め込みを共有しており、観測された差異が検索にのみ起因することを保証します。評価は、前処理済みのBioASQベンチマークのサブセット(rag-mini-bioasq)から抽出した250の質問―回答ペアに対して、DeepEvalの4つの指標――contextual precision(文脈上の適合率)、contextual recall(文脈上の再現率)、faithfulness(忠実性)、answer relevancy(回答の関連性)――を用いて行い、各指標は95%信頼区間付きで報告します。下限として、無文脈アブレーションも含めています。Cross-Encoder Rerankingは最良の複合スコア(0.827)と最高のcontextual precision(0.852)を達成し、クエリと文書の相互作用が測定可能な検索上の改善につながることを裏づけます。Multi-Query Expansionは再現率志向の設計であるにもかかわらず、最も弱いcontextual precision(0.671)を示し、単純なクエリ多様化が検索ノイズを持ち込むことを示唆します。MMRは多様性のためにanswer relevancyを犠牲にします。一方、Denseベースライン(複合スコア0.822)は、最上位戦略から0.005ポイント以内の差にとどまります。すべてのRAG条件は、answer relevancyにおいて無文脈アブレーション(0.287)に対して劇的に優れており(0.658-0.701)、検索の実用的価値を確認します。完全なパイプライン、ハイパーパラメータ、評価コードは公開されています。