要旨: 大規模言語モデル(LLM)エージェントは、複数ターンのツール使用タスクで高い成果を示してきましたが、訓練中は孤立して動作し、エピソードを跨いで蓄積された経験を活用できていません。既存の経験拡張手法は、軌跡を再利用可能なライブラリに整理することでこれに対処しますが、初期タスク記述に基づいて経験を一度だけ取得し、エピソード全体を通じてそれを固定したままにします。観察が毎ステップで変化するマルチターン設定では、この静的な取得はエピソードが進むにつれてますますミスマッチになります。我々は、現在の観察に条件付けて、意思決定の各ステップで関連する経験を取得するフレームワークSLEA-RL(Step-Level Experience-Augmented Reinforcement Learning)を提案します。SLEA-RLは3つの要素で動作します:(i) 効率的なクラスタインデックス付き検索のために構造的に同等の環境状態をグルーピングするステップレベルの観測クラスタリング;(ii) スコアベースの受入れとレート制限抽出を通じて成功戦略と失敗パターンを蒸留する自己進化型経験ライブラリ;(iii) マルチターンエピソード全体での微粒な利得推定のためのステップレベルクレジット割り当てを含む方策最適化。経験ライブラリは勾配更新ではなく意味解析を通じてポリシーとともに進化します。長期間にわたるマルチターンエージェントのベンチマークに関する実験は、SLEA-RLがさまざまな強化学習ベースラインと比較して優れた性能を発揮することを示しています。
SLEA-RL: マルチターンエージェント訓練のためのステップレベル経験拡張強化学習
arXiv cs.LG / 2026/3/20
📰 ニュースModels & Research
要点
- SLEA-RLは、現在の観測に基づいて各意思決定ステップで経験を取得することにより、マルチターンのLLMエージェント向けのステップレベルの経験拡張を導入する。
- これには、効率的で構造を保持した検索のためのステップレベル観測クラスタリング、戦略と失敗パターンを蒸留するためのスコアベースの受入とレート制限抽出を用いる自己進化型経験ライブラリ、そしてエピソード全体での細粒度な利得推定のためのステップレベルクレジット割り当てを伴うポリシー最適化の3要素が含まれる。
- このライブラリは、勾配更新ではなくセマンティック分析を通じてポリシーと共に進化し、蓄積された経験へ直接勾配更新を行わずに継続的な適応を可能にする。
- 長期的なマルチターンのベンチマークに関する実験は、SLEA-RLがさまざまなRLベースラインに対して優れた性能を発揮することを示している。


