要旨: 大規模言語モデル(LLM)は、2つの相補的なパラダイムによって強力な能力を示してきた。すなわち、知識の根拠付けのための想起拡張生成(Retrieval-Augmented Generation: RAG)と、複雑な推論のための検証可能な報酬からの強化学習(Reinforcement Learning from Verifiable Rewards: RLVR)である。 しかし、これらのパラダイムを統一しようとする既存の試みは依然として範囲が狭く、通常は固定された想起設定のもとでのオープンドメインQAに限られており、より広い領域への汎化が制約されている。 この制約に対処するために、我々はUR^2(Unified RAG and Reasoning)を提案する。これは、想起と推論を動的に協調させる一般的な強化学習フレームワークである。 UR^2は、2つの主要な設計を導入する。1つ目は、難易度に応じたカリキュラムであり、困難な事例に対してのみ選択的に想起を呼び出す。2つ目は、ドメイン固有のオフライン・コーパスと、実行時にLLMが生成する要約を組み合わせるハイブリッドな知識アクセス戦略である。 これらの構成要素により、想起と推論の間の不均衡が緩和され、ノイズを含む情報への頑健性が向上する。 オープンドメインQA、MMLU-Pro、医療、数理推論タスクに関する実験により、Qwen-2.5-3/7B および LLaMA-3.1-8B をベースに構築された UR^2 が、既存のRAGおよびRLベースラインを一貫して上回り、複数のベンチマークにおいて GPT-4o-mini および GPT-4.1-mini と同等の性能を達成することが示される。 本コードは https://github.com/Tsinghua-dhy/UR2 で公開されている。
UR$^2$:強化学習でRAGと推論を統一する
arXiv cs.CL / 2026/4/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、RAG(検索拡張生成)と複雑な推論を統合するために、取得のタイミングと推論の進め方を動的に協調させる強化学習フレームワークUR$^2$を提案しています。
- UR$^2$は、難易度に応じて難しい例に対してのみ検索を呼び出すカリキュラムを用い、固定的な検索設定よりも「検索」と「推論」のバランスを効果的に取ろうとしています。
- さらに、ドメイン固有のオフラインコーパスと、実行時にLLMが生成する要約を組み合わせるハイブリッドな知識アクセス手法により、ノイズのある情報への頑健性を高めています。
- オープンドメインQA、MMLU-Pro、医学、数学的推論といった複数のタスクで実験した結果、UR$^2$は従来のRAGおよびRLのベースラインを上回り、多くのベンチマークでGPT-4o-miniやGPT-4.1-miniに匹敵する性能を示しました。
- 手法はQwen-2.5-3/7BやLLaMA-3.1-8Bなどを用いて実装されており、著者らはGitHubでコードを公開しています。




