Agent^2 RL-Bench: LLMエージェントはエージェント的なRLポストトレーニングを設計できるのか?
arXiv cs.AI / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Agent^2 RL-Benchは、LLMエージェントがエージェント的なRLポストトレーニングのための「完全なRLパイプライン」を自律的に設計・実装・実行できるかを評価するための新しいベンチマークを提案している。
- ベンチマークは6タスクを3レベル構成で用意し、静的なルールベースから閉ループのオンラインRL(軌跡収集)へと進むにつれて、従来の段階では課さない構造的要求を追加している。
- 分離された作業環境、採点用のAPI、提出物とコード改訂を記録する実行計測、さらに自動の事後解析による構造化レポート生成により、エージェント駆動ポストトレーニング挙動の自動診断を可能にしている。
- 複数のエージェントスタックと6つのドライバLLMで検証した結果、ALFWorldではSFTウォームアップ+GRPO+オンラインロールアウトによって改善が大きい一方、DeepSearchQAではほぼ改善しないなどタスク依存性が大きく、同じ枠組みでもドライバ選択がオンラインでの改善幅を大きく左右することが示された。




