CUE-R:検索拡張生成における最終回答のその先へ

arXiv cs.CL / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • CUE-Rは、浅い検索利用のトレースを用いて、シングルショットRAGにおける取得した各エビデンス項目の運用上の有用性を測定するための、軽量で介入型の評価フレームワークとして提案される。
  • 個々のエビデンス項目に対してREMOVE、REPLACE、DUPLICATEという演算子で摂動を加え、その結果が正しさ、プロキシによるグラウンディングの忠実性、信頼度エラー、ならびに追加のトレース分岐(trace-divergence)信号に与える影響を評価する。
  • Qwen-3 8BおよびGPT-5.2を用いたHotpotQAと2WikiMultihopQAの実験では、REMOVE/REPLACEは正しさとグラウンディングを大きく低下させつつ、トレースを強く変化させることが分かる。一方、DUPLICATEは冗長になりがちだが、完全に中立とは言えない。
  • 本研究は、回答のみのRAG評価では、エビデンスレベルでの重要な影響を見落とし得ることを主張し、多段(multi-hop)のエビデンス項目間に非加法的な相互作用があることも示す(例:両方の支持を取り除くと、どちらか一方を取り除く場合よりも大きく悪化し得る)。

Abstract

言語モデルが、単発の回答生成から、推論の途中でエビデンスを検索して消費する多段階の推論へと移行するにつれ、個々に検索された項目が果たす役割を評価する重要性が増している。既存のRAG評価は通常、最終回答の品質、引用の忠実性、または回答レベルでの帰属(アトリビューション)を対象としているが、ここで私たちが研究する介入ベースでの「エビデンス項目ごとの有用性」という見方を直接は扱っていない。私たちは、浅い観測可能な検索-利用トレースを用いた単発(single-shot)のRAGにおける、エビデンス項目ごとの運用的有用性を測定するための軽量な介入ベースの枠組みCUE-Rを導入する。CUE-Rは REMOVE、REPLACE、DUPLICATE という演算子によって個々のエビデンス項目を摂動させ、その後、有用性の3つの軸(正しさ、代理指標に基づくグラウンディングの忠実性、そして自信(confidence)に関する誤差)およびトレース発散(trace-divergence)信号の変化を測定する。さらに、介入結果を解釈するための運用的エビデンス役割の分類法(タクソノミー)も概説する。Qwen-3 8BおよびGPT-5.2を用いたHotpotQAと2WikiMultihopQAでの実験により、一貫したパターンが明らかになる。REMOVEとREPLACEは正しさとグラウンディングを大きく損なう一方で、大きなトレースシフトを生み出すが、DUPLICATEはしばしば回答の冗長性(冗長な再掲)にはなるものの、行動面では完全に中立とは限らない。ゼロ検索(zero-retrieval)制御により、これらの効果が意味のある検索の劣化に起因することが確認される。さらに、二つのサポートに対するアブレーションでは、多段(multi-hop)エビデンス項目が非加法的に相互作用し得ることも示される。すなわち、両方のサポートを除去すると、いずれか一方の単独除去よりもはるかに大きく性能が低下する。これらの結果は、回答のみの評価が重要なエビデンス効果を見落とし得ること、そして介入ベースの有用性分析がRAG評価に対する実用的な補完になり得ることを示唆している。