質問の仕方が重要です!クエリのバリエーションに対するAdaptive RAGの頑健性

arXiv cs.CL / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、意味的に同一だが表面形式が異なるクエリのバリエーションに焦点を当てた、初めての大規模ベンチマークを提案し、Adaptive RAGの頑健性を検証する。
  • クエリ書き換えが、回答品質、計算コスト、そして取得(リトリーバル)がトリガーされるかどうかを決定する取得判断ロジックに与える影響を評価する。
  • 著者らは大きな頑健性のギャップを見出す。すなわち、わずかな表面上の変化であっても取得挙動が大きく変わり、精度が劣化してしまう。
  • より大きなモデルほど全体として性能は良いが、クエリのバリエーションへの頑健性はモデルサイズに比例してはスケールしない。
  • これらの結果は、Adaptive RAGシステムにとって重要な実用上の脆弱性を浮き彫りにし、クエリの言い換えや書き換えによるシフトに対するより強力な取り扱いの必要性を示している。

要旨: Adaptive Retrieval-Augmented Generation(RAG)は、必要なときだけ動的に検索をトリガーすることで、精度と効率を両立することを約束しており、実運用でも広く用いられています。しかし、同じ意図であっても、現実の問い合わせは表面上の形式が異なることがあり、その影響はAdaptive RAGにおいて十分に検討されていません。私たちは、人手による書き換えとモデルによる書き換えを組み合わせた、意味的に同一でありながら多様な問い合わせバリエーションに関する初の大規模ベンチマークを提案します。このベンチマークにより、3つの次元(回答の質、計算コスト、検索判断)にわたって主要コンポーネントを調べることで、Adaptive RAGの頑健性を体系的に評価できるようになります。その結果、重要な頑健性のギャップを見出します。問い合わせにおけるわずかな表面レベルの変更が、検索のふるまいと正確性を劇的に変えてしまうのです。より大きなモデルでは性能が良いものの、頑健性はそれに応じて改善しません。これらの知見は、意味が同一に保たれているにもかかわらず、問い合わせのバリエーションに対してAdaptive RAG手法が非常に脆弱であることを明らかにし、重大な頑健性の課題を露呈します。