推論中の検索タイミング:大規模推論モデル向けの適応的リトリーバル

arXiv cs.AI / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、既存のRAG(検索拡張生成)パイプラインが大規模推論モデルと噛み合っていない理由として、通常は推論の前に検索してしまい、こうしたモデルには推論の複数ステップの途中で証拠を注入する必要がある点を指摘している。
  • ReaLM-Retrieveを提案し、段階(ステップ)単位の不確実性検出、検索介入ポリシーの学習、そして効率化した統合メカニズムにより「いつ検索するか」と「どう効率よく行うか」を決められるようにする。
  • MuSiQue、HotpotQA、2WikiMultiHopQAでの実験では、標準RAGに対して平均+10.1の絶対的なF1向上を達成しつつ、固定間隔手法に比べて検索呼び出しを47%削減している。
  • MuSiQue(2〜4ホップ推論)では、平均1.8回の検索呼び出しで71.2%のF1を到達させ、さらに検索品質自体も改善している(Recall@5が81.3%で、固定戦略より高い精度とMRR)。
  • 著者らは、こうした成果により、多段推論を伴う検索タスクにおける「効率–精度」の新たな最先端のトレードオフが示されたとしている。

要旨: DeepSeek-R1 や OpenAI o1 のような大規模推論モデルは、数千トークンに及ぶ長大な思考(連鎖)を生成する一方で、検索拡張生成(RAG)との統合は根本的に不整合なままである。現在の RAG システムは、推論が始まる前に文脈を提示することを最適化しているが、推論モデルは、多段の推論連鎖の最中にエビデンスを注入することを必要とする。そこで我々は、この不整合を 3 つの主要な革新によって解消する、推論を意識した検索フレームワーク ReaLM-Retrieve を提案する: (1) トークンや文レベルではなく、推論ステップの粒度で知識の欠落を特定するステップ単位の不確実性検出器。 (2) 推論の進行中に外部エビデンスが最大の利益をもたらすタイミングを学習する検索介入方策。 (3) 直感的な統合に比べて、検索ごとのオーバーヘッドを 3.2 倍削減する効率化に最適化された統合メカニズム。 MuSiQue、HotpotQA、2WikiMultiHopQA に対する実験により、ReaLM-Retrieve は標準的な RAG に比べて平均で回答 F1 が絶対値 10.1% 改善することを示す(3 つのベンチマーク間の範囲: 9.0-11.8%)。さらに、IRCoT のような固定間隔アプローチと比べて検索呼び出しを 47% 削減している(いずれも p<0.01、ペアブートストラップで有意)。2-4 ホップの推論を要求する難しい MuSiQue ベンチマークでは、本手法は平均 1.8 回の検索呼び出しのみで 71.2% の F1 を達成する。分析により、ReaLM-Retrieve は検索の質そのものも改善し、支援するエビデンスに関して固定間隔ベースラインよりも一貫して高い精度と MRR を保ちながら、Recall@5 で 81.3% を達成することが分かる。これにより、推論集約的な検索タスクにおける効率と精度の新しい最先端のトレードオフが確立される。