抽象: 既存のQAベンチマークは通常、重複が最小限で明確に区別された文書を前提としています。しかし、現実の検索拡張生成(RAG)システムは、金融レポート、法律の条文、特許などのコーパスで動作し、その情報は非常に冗長であり、文書間の類似性は強いものとなっています。この不一致は評価の妥当性を損ないます。評価では文書間の冗長性が考慮されないため、検索(リトリーバ)が十分な根拠を提供する文書を取得できても、不当に低く見積もられてしまうのです。一方で、標準ベンチマークでうまく機能する検索器は、強く類似し冗長な文書を含む実世界のコーパスではしばしばうまく一般化できません。私たちはRARE(Redundancy-Aware Retrieval Evaluation:冗長性を考慮した検索評価)を提案します。これは、(i) 文書を原子的な事実へ分解して正確に冗長性を追跡できるようにし、(ii) CRRFによってLLMベースのデータ生成を強化することで、現実的なベンチマークを構築するための枠組みです。RAGベンチマークのデータは通常、複数の品質基準を必要としますが、LLMはしばしば些細で自明な出力を生成します。CRRFは基準を個別にスコアリングし、順位によって意思決定を融合することで、生成データの信頼性を高めます。RAREをFinance、Legal、Patentのコーパスに適用し、RedQAを導入します。そこでは強力な検索器のベースラインが、4-hop General-Wikiでの66.4%のPerfRecall@10から、4-hop深さでの5.0〜27.9%のPerfRecall@10へと低下します。これは、現在のベンチマークでは捉えられていない頑健性のギャップを明らかにします。RAREにより、実運用の条件を忠実に反映するドメイン固有のRAG評価を実践者が構築できるようになります。
高類似コーパス向けの冗長性対応型リトリーバル評価フレームワーク RARE
arXiv cs.CL / 2026/4/22
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 既存のQAおよびリトリーバル系ベンチマークは文書同士の重複が少ないことを前提にしがちであり、高い冗長性と文書間類似性を持つ実世界のRAGコーパスでは評価が不正確になり得る。
- 本論文はRARE(Redundancy-Aware Retrieval Evaluation)を提案し、原子事実への分解による冗長性追跡と、CRRFを用いたLLM生成データの改善によって、より現実的なベンチマーク構築を可能にする。
- CRRFは複数の品質基準をそれぞれ別にスコアリングし、順位に基づいて判断を統合することで、ベンチマーク生成時のLLMによる自明な出力を抑え、生成データの信頼性を高める。
- Finance、Legal、Patentの各コーパスでRedQAを適用すると、深い(高ホップ)タスクでretrieverの性能が大きく低下し、標準ベンチマークでは見えない頑健性のギャップが明らかになった。
- RAREは、運用時の状況により忠実なドメイン別RAG評価を実務者が構築するためのフレームワークとして位置づけられる。



