要旨: 強化学習(RL)は、LLMベースのエージェントを訓練するための強力なパラダイムとして浮上してきましたが、サンプル効率の低さという点で依然として制限されており、それは希薄なアウトカムフィードバックだけでなく、エピソード間での過去の経験を活用できないエージェントの能力にも起因します。歴史的な経験をエージェントに付与することは有望な対策を提供しますが、既存のアプローチには重大な弱点があります。歴史から蒸留された経験は静的に保存されるか、改善するアクターと共進化できず、訓練の過程で経験とアクターの進化する能力との間に徐々に齟齬を生じさせ、その有用性を低下させます。神経科学における補完的学習システムに触発され、RLの最適化ループ内で経験抽出器とポリシーアクターのシームレスな共進化を実現するComplementary RLを提示します。具体的には、アクターは希薄なアウトカムベースの報酬によって最適化され、経験抽出器は蒸留された経験がアクターの成功に寄与することを実証的に示すかどうかに応じて最適化され、アクターの成長する能力と同時進行でその経験管理戦略を進化させます。実証的には、経験から学ばないアウトカムベースのエージェントRLベースラインを上回るComplementary RLが、単一タスクの状況で10%の性能向上を達成し、マルチタスク設定で堅牢なスケーラビリティを示します。これらの成果は、効率的な経験駆動型エージェント学習のパラダイムとしてComplementary RLを確立します。
補完的強化学習
arXiv cs.LG / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 補完的 RL は、LLMベースのエージェントのサンプル効率を向上させるために、RLループ内で共進化する体験抽出器とポリシーアクターを導入します。
- 過去の経験が静的であるか、アクターの進化する能力と齟齬している問題に対し、体験管理を学習と連動して適応させることで解決します。
- この手法は、スパースな成果ベースの報酬でアクターを最適化しつつ、体験抽出器を訓練してアクターの成功に対する自らの寄与影響を最大化します。
- 実証的な結果は、単一タスク設定で約10%の性能向上と、マルチタスク環境での堅牢なスケーラビリティを示しており、経験主導のエージェント学習の有望な新しいパラダイムを示唆します。