より効率的で正確なエージェント型RAGのための推論時戦略

arXiv cs.AI / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Search-R1 Retrieval-Augmented Generationパイプラインにおける推論時の変更を検討し、繰り返しの検索や不適切な文脈化といった非効率を低減することを目的としています。
  • 2つの構成要素を提案します。1) 取得済み文書を推論へより適切に統合する文脈化モジュール、2) 以前に取得した文書を、より新しく、より関連性の高い文書で置き換える重複排除モジュール。
  • 評価は HotpotQA と Natural Questions を用い、EMスコア、LLMをジャッジとして用いた評価、および平均取得ターン数を報告しています。
  • 最も高い性能を示した変種は、文脈化にGPT-4.1-miniを用い、Search-R1ベースラインと比較してEMスコアを5.6%向上させ、ターン数を10.5%削減しており、回答の正確性と取得効率の改善を示しています。

要旨:Retrieval-Augmented Generation (RAG) 系は、複雑で多跳の質問に直面しており、反復的に動作する Search-R1(Jin et al., 2025)のようなエージェント型フレームワークが、これらの複雑性に対処するために提案されています。しかし、そのようなアプローチは、処理済み情報の繰り返しの取得や、取得結果を現在の生成プロンプト内で効果的に文脈化する際の課題といった非効率を招く可能性があります。このような問題は、不要な取得ターン、最適でない推論、正確でない回答、そしてトークン消費の増加につながる可能性があります。

本論文では、これらの識別された欠点を緩和するために、Search-R1 パイプラインのテスト時の変更を検討します。具体的には、2つのコンポーネントの統合とその組み合わせを検討します:推論へ、取得済み文書からの関連情報をより適切に統合する文脈化モジュール、そして以前に取得した文書を次に最も関連性の高い文書に置き換える重複排除モジュール。HotpotQA(Yang et al., 2018)および Natural Questions(Kwiatkowski et al., 2019)データセットを用いて、厳密一致(EM)スコア、解答正確性をLLMをジャッジとした評価、平均ターン数を報告します。

私たちの最も高性能な変種は、文脈化に GPT-4.1-mini を用い、EM スコアを 5.6% 増加させ、Search-R1 のベースラインと比較してターン数を 10.5% 減少させ、回答の正確性と取得効率の改善を示しています。