必要なときだけ使う:メモリとスキルに基づく経験駆動型ライフロング・エージェントのための先読みリトリーバル
arXiv cs.CL / 2026/4/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多くのライフロングエージェントが過去の経験からのリトリーバルを受動的に扱うため、対話の途中で知識ギャップを見抜けず、取得が遅れたり過剰になったりしがちだと指摘している。
- 経験駆動型のライフロング学習フレームワーク「ProactAgent」を提案し、事実メモリ・エピソードメモリ・行動スキルを分けて整理した経験ベース上で先読みリトリーバルを可能にする。
- ProactAgentには、方策更新とメモリ精緻化の両方を通じて継続的に改善するExpOnEvoが含まれ、行動と保存される経験の双方が進化できるようにする。
- retrievalを明示的な方策アクションとして扱うProactRLを導入し、同一の対話プレフィックスから「リトリーバルあり/なし」を比較して学習することで、取得判断をステップ単位で監督する。
- SciWorld、AlfWorld、StuLifeでの実験では、SciWorldで73.50%、AlfWorldで71.28%の成功率向上に加え、リトリーバルのオーバーヘッドを大幅に削減し、StuLifeではプロプライエタリモデルと競争力のある性能を示した。




