OThink-SRR1:強化学習による大規模言語モデルのための検索・精錬・推論
arXiv cs.CL / 2026/4/23
📰 ニュースModels & Research
要点
- この論文では、複雑なマルチホップ質問に対してRAG(Retrieval-Augmented Generation)を改善するために、反復的なSearch–Refine–Reasonループを加えるOThink-SRR1を提案している。
- 主要な工夫はRefine段階で、取得した文書から簡潔で関連性の高い事実を要約・抽出し、推論を妨げる無関係な「ノイズ」を減らす点にある。
- GRPO-IRというエンドツーエンドの強化学習アルゴリズムを提示し、正しい根拠(evidence)の特定を報いる一方で、過剰な検索を罰することで、精度と効率の両立を目指している。
- 4つのマルチホップQAベンチマークで、強力なベースラインを上回る精度を達成しつつ、検索ステップ数とトークン数を削減している。
- 総じて、OThink-SRR1は、信頼できるコスト意識の検索と推論を必要とする情報探索エージェントの有力な基盤として位置づけられている。




