OThink-SRR1:強化学習による大規模言語モデルのための検索・精錬・推論

arXiv cs.CL / 2026/4/23

📰 ニュースModels & Research

要点

  • この論文では、複雑なマルチホップ質問に対してRAG(Retrieval-Augmented Generation)を改善するために、反復的なSearch–Refine–Reasonループを加えるOThink-SRR1を提案している。
  • 主要な工夫はRefine段階で、取得した文書から簡潔で関連性の高い事実を要約・抽出し、推論を妨げる無関係な「ノイズ」を減らす点にある。
  • GRPO-IRというエンドツーエンドの強化学習アルゴリズムを提示し、正しい根拠(evidence)の特定を報いる一方で、過剰な検索を罰することで、精度と効率の両立を目指している。
  • 4つのマルチホップQAベンチマークで、強力なベースラインを上回る精度を達成しつつ、検索ステップ数とトークン数を削減している。
  • 総じて、OThink-SRR1は、信頼できるコスト意識の検索と推論を必要とする情報探索エージェントの有力な基盤として位置づけられている。

Abstract

生成拡張(Retrieval-Augmented Generation, RAG)は大規模言語モデル(LLM)の知識を拡張しますが、現在の静的な検索手法は複雑な多段(multi-hop)問題に対して苦戦しています。近年の動的な検索戦略は改善をもたらすものの、次の2つの主要な課題に直面します。1)無関係な検索結果のノイズが推論プロセスを誤誘導しうること、2)全文書を処理することは計算量とレイテンシの点で過大なコストを要することです。これらの課題に対処するため、強化学習によって訓練される反復的な Search-Refine-Reason(検索—精錬—推論)プロセスで大規模モデルを強化する枠組み OThink-SRR1 を提案します。中核となる Refine(精錬)段階では、推論の前に、検索された文書を簡潔で関連性の高い事実へと蒸留します。さらに、根拠となる証拠の同定の正確さを報酬として与え、過剰な検索を罰することで、モデルが焦点を絞りつつ効率的になるように訓練するエンドツーエンド強化学習アルゴリズム GRPO-IR を導入します。4つの多段QAベンチマークに関する実験では、本アプローチが強力なベースラインに比べてより高い精度を達成しつつ、より少ない検索ステップ数とトークン数であることを示します。これにより、OThink-SRR1 は情報探索エージェントのための強力な基盤モデルとして位置づけられます。