AI Navigate

関連性を超えて:検索とRAG情報カバレッジの関係性について

arXiv cs.AI / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • 検索強化生成(RAG)システムは、文書検索メカニズムと生成モデルを組み合わせて、レポート生成のような複雑な情報処理タスクを扱う。
  • 本研究では、複数のベンチマークと評価フレームワークを用いて、検索品質の指標と生成された応答の有効性との相関を体系的に調査する。
  • カバレッジベースの検索指標と生成出力の情報カバレッジとの間に強い相関が見られ、特に検索目標が生成目標に密接に一致する場合に顕著である。
  • より複雑な反復的RAGパイプラインでは、生成品質と検索効果の分離が見られ、検索と生成の関係には細かなニュアンスが示唆される。
  • これらの知見は、検索指標をRAGシステム全体の性能の早期指標や代理指標として利用することを支持し、評価やシステム設計の意思決定に役立つ。

Abstract

検索強化生成(RAG)システムは、文書検索と生成モデルを組み合わせて、レポート生成などの複雑な情報検索タスクに対処する。検索品質と生成の有効性の関係は直感的に理解される一方で、体系的に研究されたことはない。本研究では、上流の検索指標が最終的な生成応答の情報カバレッジの早期指標として信頼できるかどうかを調査する。2つのテキストRAGベンチマーク(TREC NeuCLIR 2024およびTREC RAG 2024)と1つのマルチモーダルベンチマーク(WikiVideo)における実験を通じて、4つのRAGパイプラインと複数の評価フレームワーク(Auto-ARGUEおよびMiRAGE)にわたり、15のテキスト検索スタックおよび10のマルチモーダル検索スタックを分析した。結果は、カバレッジベースの検索指標と生成応答のナゲットカバレッジに、トピックレベルおよびシステムレベルの両方で強い相関があることを示す。この関係は、検索目的が生成目標と一致する場合に最も強く、一方でより複雑な反復的RAGパイプラインでは生成品質と検索効果が部分的に切り離されることがある。これらの知見は、検索指標をRAG性能の代理指標として用いることに実証的な裏付けを提供する。