StratRAG：マルチホップ検索を評価するためのリトリーバル拡張生成（RAG）向けデータセット

arXiv cs.AI / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

StratRAGは、現実的でノイズのある文書プール条件のもとで、Retrieval-Augmented Generation（RAG）システムをマルチホップ推論タスクでベンチマークするためのオープンソース評価データセットです。
データセットはHotpotQA（distractor setting）から派生しており、3種類の設問（bridge、comparison、yes-no）を含む2,200例で構成されています。各例では15件の候補文書プールを用い、正解（gold）文書がちょうど2件、関連トピックのダミー（distractor）が13件含まれます。
BM25、all-MiniLM-L6-v2による密検索、ハイブリッド融合の3つの検索戦略を、Recall@k、MRR、NDCG@5などの指標で評価しています。
ハイブリッド検索が総合的に最良の結果を示します（Recall@2 = 0.70、MRR = 0.93）が、bridge問題は特に難しく（Recall@2 = 0.67）、より良い検索ポリシーの必要性が示唆されています。
StratRAGは研究コミュニティが利用・再現できるよう、Hugging Faceで公開されています。

要旨: 現実的でノイズの多いドキュメントプール条件のもと、多段（マルチホップ）推論タスクで Retrieval-Augmented Generation（RAG）システムをベンチマークするための、オープンソースの検索評価データセットである StratRAG を紹介します。HotpotQA（distractor 設定）から派生した StratRAG は、3種類の質問タイプ――bridge（橋渡し）、comparison（比較）、yes-no（はい/いいえ）――にまたがって、合計2,200例を含みます。各質問は、ちょうど2つのゴールド文書と、トピック的に関連したディストラクタ13個を含む15件の候補文書プールとペアになっています。ベンチマークでは、3つの検索戦略――BM25、密（dense）検索（all-MiniLM-L6-v2）、およびハイブリッド融合――を評価し、検証セットにおける Recall@k、MRR、NDCG@5 を報告します。ハイブリッド検索は全体として最良の性能を達成します（Recall@2 = 0.70、MRR = 0.93）が、それでも bridge の質問は依然として大幅に難しく（Recall@2 = 0.67）、強化学習ベースの検索ポリシーに関する今後の研究が動機づけられます。StratRAG は https://huggingface.co/datasets/Aryanp088/StratRAG で公開されています。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

LLMはコモディティになる

Reddit r/artificial

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Reddit r/LocalLLaMA

故障コードからスマートな修理へ：Google Cloud NEXT ’26に触発されたAIメカニック・アシスタントの作り方

Dev.to

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

Tech.eu

StratRAG：マルチホップ検索を評価するためのリトリーバル拡張生成（RAG）向けデータセット

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

LLMはコモディティになる

ローカルでQwen 3.6やGemma 4を動かすときの感覚

故障コードからスマートな修理へ：Google Cloud NEXT ’26に触発されたAIメカニック・アシスタントの作り方

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

LLMはコモディティになる

ローカルでQwen 3.6やGemma 4を動かすときの感覚

故障コードからスマートな修理へ：Google Cloud NEXT ’26に触発されたAIメカニック・アシスタントの作り方

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力