CUE-R:検索拡張生成における最終回答のその先へ
arXiv cs.CL / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- CUE-Rは、浅い検索利用のトレースを用いて、シングルショットRAGにおける取得した各エビデンス項目の運用上の有用性を測定するための、軽量で介入型の評価フレームワークとして提案される。
- 個々のエビデンス項目に対してREMOVE、REPLACE、DUPLICATEという演算子で摂動を加え、その結果が正しさ、プロキシによるグラウンディングの忠実性、信頼度エラー、ならびに追加のトレース分岐(trace-divergence)信号に与える影響を評価する。
- Qwen-3 8BおよびGPT-5.2を用いたHotpotQAと2WikiMultihopQAの実験では、REMOVE/REPLACEは正しさとグラウンディングを大きく低下させつつ、トレースを強く変化させることが分かる。一方、DUPLICATEは冗長になりがちだが、完全に中立とは言えない。
- 本研究は、回答のみのRAG評価では、エビデンスレベルでの重要な影響を見落とし得ることを主張し、多段(multi-hop)のエビデンス項目間に非加法的な相互作用があることも示す(例:両方の支持を取り除くと、どちらか一方を取り除く場合よりも大きく悪化し得る)。