要旨:Retrieval-Augmented Generation (RAG) 系は、複雑で多跳の質問に直面しており、反復的に動作する Search-R1(Jin et al., 2025)のようなエージェント型フレームワークが、これらの複雑性に対処するために提案されています。しかし、そのようなアプローチは、処理済み情報の繰り返しの取得や、取得結果を現在の生成プロンプト内で効果的に文脈化する際の課題といった非効率を招く可能性があります。このような問題は、不要な取得ターン、最適でない推論、正確でない回答、そしてトークン消費の増加につながる可能性があります。
本論文では、これらの識別された欠点を緩和するために、Search-R1 パイプラインのテスト時の変更を検討します。具体的には、2つのコンポーネントの統合とその組み合わせを検討します:推論へ、取得済み文書からの関連情報をより適切に統合する文脈化モジュール、そして以前に取得した文書を次に最も関連性の高い文書に置き換える重複排除モジュール。HotpotQA(Yang et al., 2018)および Natural Questions(Kwiatkowski et al., 2019)データセットを用いて、厳密一致(EM)スコア、解答正確性をLLMをジャッジとした評価、平均ターン数を報告します。
私たちの最も高性能な変種は、文脈化に GPT-4.1-mini を用い、EM スコアを 5.6% 増加させ、Search-R1 のベースラインと比較してターン数を 10.5% 減少させ、回答の正確性と取得効率の改善を示しています。



