QPPは最適なクエリ・バリアントを選べるのか?RAGパイプラインにおけるクエリ・バリアント選択の評価

arXiv cs.CL / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、RAGパイプラインにおいてQPP(Query Performance Prediction)でクエリ書き換え(リフォームレーション)の各バリアントを最適に選び、全バリアントで検索・生成を毎回実行せずに済むかを検討する。
  • 従来のQPPがトピック横断でクエリ難易度を推定するのに対し、本研究では同一の情報要求に対する競合する複数バリアントの中から最良を選ぶ「同一トピック内の識別」を扱う。
  • TREC-RAGでの実験の結果、検索のランキング指標(nDCGなど)を最大化するバリアントが、必ずしも最良の生成回答につながらないことが示され、「検索適合性」と「生成の忠実度」の間に“utility gap(有用性の隔たり)”がある。
  • それでもQPPは、元のクエリよりもエンドツーエンドの品質を改善するバリアントを一貫して特定できる。
  • 特に、軽量な事前(pre-retrieval)予測器は、高コストな事後(post-retrieval)手法に匹敵、あるいは上回ることが多く、頑健で低遅延なRAGのバリアント選択の可能性が示される。

Abstract

大規模言語モデル(LLM)は、現代の検索および Retrieval-Augmented Generation(RAG)パイプラインにおいてクエリ書き換えを広く普及させ、意味的に等価な複数のクエリ変種を生成できるようにしました。しかし、書き換えのたびにパイプライン全体を実行することは計算コストが高く、選択的実行が動機づけられます。下流の検索および生成コストを支払う前に、最良のクエリ変種を特定できるでしょうか?本研究では、アドホック検索とエンドツーエンドRAGの双方において変種選択のための仕組みとして、Query Performance Prediction(QPP)を調査します。トピック間でクエリの難しさを推定する従来型のQPPとは異なり、同一の情報要求に対する競合する変種の中から最適な書き換えを選ぶという、トピック内識別(intra-topic discrimination)を扱います。スパースおよびデンス両方のリトリーバを用いたTREC-RAGに関する大規模実験により、相関ベースおよび決定ベースの指標の下で、事前および事後の予測器を評価します。結果として、検索目的と生成目的の間に体系的な乖離があることが明らかになりました。たとえば、nDCGのようなランキング指標を最大化する変種は、最良の生成回答を生み出せないことが多く、「検索の適合性」と「生成の忠実性」の間にユーティリティ・ギャップがあることを示しています。それでもなお、QPPは元のクエリよりもエンドツーエンド品質を改善する変種を確実に特定できます。特に、軽量な事前検索予測器は、より高コストな事後検索手法と同等、あるいはそれを上回ることがしばしばあり、頑健なRAGに対して低遅延なアプローチを提供します。