LiteResearcher:ディープリサーチエージェント向けのスケーラブルなエージェンティック強化学習(RL)トレーニングフレームワーク

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、LLMベースの「ディープリサーチ」エージェントを対象にした、スケーラブルな強化学習(RL)トレーニングフレームワーク「LiteResearcher」を提案している。
  • 先行研究のスケールが難しい理由として、(1) 現実の検索能力を引き出せない手作りの合成データと、(2) RL学習中に現実世界の検索へ依存することで不安定化し高コストになる、という2つの密結合課題を挙げている。
  • LiteResearcherは、現実世界の検索ダイナミクスを模した「ライトな仮想世界」を構築することで、継続的に改善できる学習レシピを可能にする。
  • その結果、(4B規模の)小型の検索エージェントがより大きなモデルを上回り、GAIAで71.3%、Xbenchで78.0%を達成してオープンソースとしてのSOTAを示した。
  • 全体として、本研究はコスト効率よく実用的なディープリサーチエージェントを実現するための重要な要因として「スケーラブルなRLトレーニング」を位置付けている。

Abstract

強化学習(RL)は、LLMベースのエージェントに対する強力な学習パラダイムとして登場してきました。しかし、深いリサーチのためのエージェント型RLをスケールさせることは、2つの結び付いた課題によっていまだ制約されています。すなわち、手作りの合成データでは、真に現実世界の探索能力を引き出せないこと、そしてRL学習中に現実世界への探索依存が生じることが不安定性と過大なコストにつながり、エージェント型RLのスケーラビリティを制限していることです。LiteResearcherは、エージェント型RLをスケーラブルにするための学習フレームワークです。現実世界の探索ダイナミクスを模した軽量な仮想世界を構築することで、継続的に改善される学習レシピを可能にし、小型の探索エージェントが大規模なオープンソースおよび商用モデル(例:Tongyi DeepResearch および Claude-4.5 Sonnet)を上回る性能を発揮できるようにします。具体的には、GAIAやXbenchといった一般的なベンチマークにおいて、LiteResearcher-4Bはそれぞれ71.3%および78.0%のオープンソースにおける最先端の結果を達成しており、スケーラブルなRL学習がディープリサーチ・エージェントを可能にする重要な要因であることを示しています。