エージェント型探索のための自己反省を用いたメタ強化学習
arXiv cs.LG / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- MR-Searchは、過去の経験を条件にすることでエピソード間で戦略を適応できる、エージェント型探索の文脈内メタ強化学習フレームワークを導入する。
- このアプローチは、各エピソード後の明示的な自己反省を活用して、次の試行を導く追加の文脈を生成し、テスト時の文脈内探索を改善する。
- エピソード間の細かなクレジット配分を可能にする、ターンレベルで密度の高い相対的アドバンテージを推定する新しい多ターンRLアルゴリズムが提案される。
- 実験結果は、8つのベンチマークにおいて、ベースラインと比較して9.2%から19.3%の性能向上を示し、強い一般化能力を示す。著者らはリンクされたGitHubリポジトリにコードとデータを公開している。
本文: arXiv:2603.11327v1 アナウンス種別: new 要旨: この論文は MR-Search、自己反省を伴うエージェント型探索の文脈内メタ強化学習(RL)定式化を紹介します。スパース報酬を伴う単一の独立したエピソード内で方策を最適化する代わりに、MR-Search は過去のエピソードを条件としてエピソード間で探索戦略を適応させる方策を学習します。MR-Search は自己反省を用いて探索戦略を学習する学習を学習し、テスト時の文脈内探索を改善できるようにします。具体的には、MR-Search は各エピソードの後に明示的な自己反省を生成し、それを追加の文脈として活用して後続の試行を導くことで、エピソード間の探索を促進し、テスト時の探索をより効果的にします。さらに、ターンレベルで密度の高い相対的アドバンテージを推定する多ターン RL アルゴリズムを導入し、各エピソードでの細かなクレジット配分を可能にします。さまざまなベンチマークにおける経験的結果は、MR-Search が従来の RL ベースのベースラインより優れており、強い一般化と 8 つのベンチマークで 9.2% から 19.3% の相対的改善を示すことを示しています。私たちのコードとデータは https://github.com/tengxiao1/MR-Search で公開されています。