必要なときだけ使う：メモリとスキルに基づく経験駆動型ライフロング・エージェントのための先読みリトリーバル

arXiv cs.CL / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多くのライフロングエージェントが過去の経験からのリトリーバルを受動的に扱うため、対話の途中で知識ギャップを見抜けず、取得が遅れたり過剰になったりしがちだと指摘している。
経験駆動型のライフロング学習フレームワーク「ProactAgent」を提案し、事実メモリ・エピソードメモリ・行動スキルを分けて整理した経験ベース上で先読みリトリーバルを可能にする。
ProactAgentには、方策更新とメモリ精緻化の両方を通じて継続的に改善するExpOnEvoが含まれ、行動と保存される経験の双方が進化できるようにする。
retrievalを明示的な方策アクションとして扱うProactRLを導入し、同一の対話プレフィックスから「リトリーバルあり／なし」を比較して学習することで、取得判断をステップ単位で監督する。
SciWorld、AlfWorld、StuLifeでの実験では、SciWorldで73.50%、AlfWorldで71.28%の成功率向上に加え、リトリーバルのオーバーヘッドを大幅に削減し、StuLifeではプロプライエタリモデルと競争力のある性能を示した。

Abstract

オンラインの生涯学習は、エージェントが相互作用を通じて経験を蓄積し、長期的な課題を継続的に改善することを可能にします。しかし、既存の手法は一般に、過去の経験からの検索を受動的な操作として扱い、タスクの初期化時、またはステップを完了した後にのみそれをトリガーします。その結果、エージェントは相互作用中に知識の不足を特定できないことが多く、現在の意思決定にとって最も有用な経験を先回りして検索することができません。この制約に対処するために、我々は構造化された経験ベース上での能動的検索を可能にする、経験駆動型の生涯学習フレームワークであるProactAgentを提案します。まず、方策の更新とメモリの洗練の両方を通じて継続的な改善を可能にするExperience-Enhanced Online Evolution（ExpOnEvo）を導入します。経験ベースは、過去の相互作用を事実メモリ、エピソードメモリ、および行動スキルを含むタイプ付きリポジトリに整理し、検索が関連する根拠と同時に実行可能な指針の両方を提供できるようにします。その上で、我々は検索を明示的な方策アクションとしてモデル化し、対応する分岐プロセスの報酬によって「いつ何を検索するか」を学習するProactive Reinforcement Learning-based Retrieval（ProactRL）を提案します。検索の有無が異なる、同一の相互作用プレフィックスからの継続を比較することで、ProactRLは検索の意思決定に対するステップ単位の教師信号を提供し、より良いタスク結果や高い効率につながる場合にのみ検索を促します。SciWorld、AlfWorld、およびStuLifeでの実験により、ProactAgentは生涯学習エージェントの性能を一貫して改善し、SciWorldで73.50\\%、AlfWorldで71.28\\%の成功率を達成しつつ、検索オーバーヘッドを大幅に削減することが示されます。また、StuLifeにおいては専有モデルと競合する性能を達成します。