AEL：開かれた環境のためのエージェント進化型学習

arXiv cs.CL / 2026/4/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、長い連続エピソードを含むオープンエンド環境で動くLLMエージェントは主に“無状態”であり、課題の中心は何を記憶するかではなく、記憶した経験をどのように“使う”かだと主張しています。
提案手法のAgent Evolving Learning（AEL）は、2つの時間スケールで構成され、速い側ではThompson Samplingのバンディットが各エピソードでメモリ検索ポリシーを選択し、遅い側ではLLMによるリフレクションが失敗パターンを診断して因果的な洞察をエージェントの意思決定プロンプトへ注入します。
証券ポートフォリオの連続ベンチマーク（10銘柄の多様なセクター、208エピソード、5つのシード）で、AELはSharpe比 2.13±0.47を達成し、5つの先行する自己改善手法および非LLMベースラインのすべてを上回り、LLMベース手法の中でも分散が最小でした。
9つの変種によるアブレーションでは、メモリとリフレクションを組み合わせることで“無状態”ベースラインに対して累積58%の改善が得られる一方、プランナー進化、ツールごとの選択、コールドスタート初期化、スキル抽出、3種類のクレジット割当など追加メカニズムはいずれも性能を低下させました。
これらの結果は、エージェントの自己改善におけるボトルネックが経験を自己診断して解釈し、適用する方法にあり、アーキテクチャの複雑化はむしろ悪影響になり得ることを示唆しています。

要旨: LLMエージェントは、数百に及ぶ連続したエピソードにまたがる、オープンエンドな環境でますます稼働されるようになっていますが、それでもなお大部分はステートレスです。つまり、過去の経験を将来のより良い振る舞いへと変換することなく、各タスクは毎回ゼロから解かれます。この障害の中心は、
\emph{何を} 記憶するかではなく、
\emph{記憶したものをどう使うか} にあります。具体的には、どの検索ポリシーを適用するべきか、過去の結果をどう解釈するか、そして現在の戦略自体がいつ変わる必要があるのか、という点です。私たちはこの障害に対処する\emph{Agent Evolving Learning}（\ael{}）を提案します。これは2つのタイムスケールを備えた枠組みです。速いタイムスケールでは、Thompson Samplingのバンディットが、各エピソードにおいて適用するメモリ検索ポリシーを学習します。遅いタイムスケールでは、LLMによる内省が失敗パターンを診断し、因果に関する洞察をエージェントの意思決定用プロンプトへ注入します。これにより、エージェントは検索した証拠に対する解釈の枠組みを得ます。連続ポートフォリオのベンチマーク（10のセクター多様なティッカー、208エピソード、5つのランダムシード）において、\ael{}はSharpe比を2.13 $\pm$ 0.47とし、5つの公開済みの自己改善手法およびLLMを用いないすべてのベースラインを上回ります。さらに、LLMベースのアプローチ群の中で最も低い分散を維持します。9つの変形（アブレーション）によって、「少ないほど多い」というパターンが明らかになります。すなわち、メモリと内省を組み合わせることで、ステートレスなベースラインに対して累積58の改善が得られる一方で、私たちがテストした追加のあらゆるメカニズム（プランナの進化、ツールごとの選択、コールドスタートの初期化、スキル抽出、ならびに3つのクレジット割当手法）は\emph{性能を低下}させます。これは、エージェントの自己改善におけるボトルネックが、アーキテクチャの複雑化を追加することではなく、\emph{自己診断によって経験をどう使うか} であることを示しています。コードとデータ: https://github.com/WujiangXu/AEL。