StratRAG:マルチホップ検索を評価するためのリトリーバル拡張生成(RAG)向けデータセット

arXiv cs.AI / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • StratRAGは、現実的でノイズのある文書プール条件のもとで、Retrieval-Augmented Generation(RAG)システムをマルチホップ推論タスクでベンチマークするためのオープンソース評価データセットです。
  • データセットはHotpotQA(distractor setting)から派生しており、3種類の設問(bridge、comparison、yes-no)を含む2,200例で構成されています。各例では15件の候補文書プールを用い、正解(gold)文書がちょうど2件、関連トピックのダミー(distractor)が13件含まれます。
  • BM25、all-MiniLM-L6-v2による密検索、ハイブリッド融合の3つの検索戦略を、Recall@k、MRR、NDCG@5などの指標で評価しています。
  • ハイブリッド検索が総合的に最良の結果を示します(Recall@2 = 0.70、MRR = 0.93)が、bridge問題は特に難しく(Recall@2 = 0.67)、より良い検索ポリシーの必要性が示唆されています。
  • StratRAGは研究コミュニティが利用・再現できるよう、Hugging Faceで公開されています。

要旨: 現実的でノイズの多いドキュメントプール条件のもと、多段(マルチホップ)推論タスクで Retrieval-Augmented Generation(RAG)システムをベンチマークするための、オープンソースの検索評価データセットである StratRAG を紹介します。HotpotQA(distractor 設定)から派生した StratRAG は、3種類の質問タイプ――bridge(橋渡し)、comparison(比較)、yes-no(はい/いいえ)――にまたがって、合計2,200例を含みます。各質問は、ちょうど2つのゴールド文書と、トピック的に関連したディストラクタ13個を含む15件の候補文書プールとペアになっています。ベンチマークでは、3つの検索戦略――BM25、密(dense)検索(all-MiniLM-L6-v2)、およびハイブリッド融合――を評価し、検証セットにおける Recall@k、MRR、NDCG@5 を報告します。ハイブリッド検索は全体として最良の性能を達成します(Recall@2 = 0.70、MRR = 0.93)が、それでも bridge の質問は依然として大幅に難しく(Recall@2 = 0.67)、強化学習ベースの検索ポリシーに関する今後の研究が動機づけられます。StratRAG は https://huggingface.co/datasets/Aryanp088/StratRAG で公開されています。