LiteResearcher:ディープリサーチエージェント向けのスケーラブルなエージェンティック強化学習(RL)トレーニングフレームワーク
arXiv cs.AI / 2026/4/21
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、LLMベースの「ディープリサーチ」エージェントを対象にした、スケーラブルな強化学習(RL)トレーニングフレームワーク「LiteResearcher」を提案している。
- 先行研究のスケールが難しい理由として、(1) 現実の検索能力を引き出せない手作りの合成データと、(2) RL学習中に現実世界の検索へ依存することで不安定化し高コストになる、という2つの密結合課題を挙げている。
- LiteResearcherは、現実世界の検索ダイナミクスを模した「ライトな仮想世界」を構築することで、継続的に改善できる学習レシピを可能にする。
- その結果、(4B規模の)小型の検索エージェントがより大きなモデルを上回り、GAIAで71.3%、Xbenchで78.0%を達成してオープンソースとしてのSOTAを示した。
- 全体として、本研究はコスト効率よく実用的なディープリサーチエージェントを実現するための重要な要因として「スケーラブルなRLトレーニング」を位置付けている。



