広告

APEX-EM:構造化された手続き型エピソード経験リプレイによる自律エージェントのための非パラメトリック・オンライン学習

arXiv cs.AI / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、モデル重みを更新しないことで、過去の手続き型プランを再利用する LLM ベースの自律エージェント向け非パラメトリック・オンライン学習フレームワーク「APEX-EM」を提案する。
  • APEX-EM は、計画ステップ、アーティファクト、誤り分析を含む反復履歴、品質スコアを捉える構造化された経験表現を定義し、PRGII ワークフローとタスク検証器を用いて多次元の報酬信号を生成する。
  • さらに、意味検索、構造的署名のマッチング、プラン DAG のトラバースを組み合わせたハイブリッド検索により、語彙の重なりがほとんどない/まったくないタスク間でも、操作上の構造が似ている場合に転移を可能にする「デュアルアウトカム(双結果)経験メモリ」を提案する。
  • BigCodeBench、KGQAGen-10k、Humanity’s Last Exam における実験では、メモリによって大きな精度/SR(Success Rate)向上が示される。KGQAGen-10k で 89.6% 対 41.3%、BigCodeBench で 83.3% SR 対 53.9% といった改善が報告されており、アブレーション結果からフィードバックの有用性はタスクの種類に依存することが示される。
  • この手法は、成功した実行を肯定的なインコンテキスト例として扱い、失敗を構造化された誤り情報で注釈した否定的な例として扱うことで、時間の経過とともに反復的な計画と再利用を改善する。

Abstract: LLMベースの自律エージェントには、永続的な手続き的メモリが欠けています。つまり、構造的に同一のタスクが過去に解かれていても、解決を毎回ゼロから再導出してしまいます。我々は \\textbf{APEX-EM} を提案します。これは、モデルの重みを変更せずに、構造化された手続き的プランを蓄積・検索・再利用する非パラメトリックなオンライン学習フレームワークです。APEX-EM は次を導入します:(1) 各実行の完全な手続き-エピソード履歴を符号化する \\emph{構造化された経験表現}——計画ステップ、成果物、エラー分析を伴う反復履歴、品質スコアを含む;(2) タスク検証器(Task Verifiers)による多次元の報酬信号を備えた \\emph{Plan-Retrieve-Generate-Iterate-Ingest}(PRGII)ワークフロー;(3) 意味検索・構造的シグネチャ一致・プランDAGトラバーサルを組み合わせたハイブリッド検索による \\emph{デュアルアウトカム Experience Memory}。これにより、語彙的な重複がなくても、操作上の構造が類似したタスク間でクロスドメイン転移が可能になります。成功した経験はポジティブなインコンテキスト例として機能し、失敗は構造化されたエラー注釈付きのネガティブ例として機能します。
我々は Claude Sonnet 4.5 と Opus 4.5 を用いて BigCodeBench~\\cite{zhuo2025bigcodebench}、KGQAGen-10k~\\cite{zhang2025kgqagen}、Humanity's Last Exam~\\cite{phan2025hle} で評価します。KGQAGen-10k では、APEX-EM はメモリなしの場合の 41.3\\% に対して 89.6\\% の精度を達成します(+48.3pp)。さらに、オラクル検索の上限(84.9\\%)を上回ります。BigCodeBench では、ベースライン 53.9\\% から +29.4pp となる 83.3\\% SR に到達し、同等のフリーズされたバックボーン条件下で MemRL's~\\cite{memrl2025} の +11.0pp 改善を上回ります(解析では、バックボーンの差異が管理されている点に留意してください)。HLE では、エンティティグラフ検索が 25.2\\% から 48.0\\%(+22.8pp)へ到達します。アブレーションにより、コンポーネントの価値はタスク依存であることが示されます。豊富なジャッジのフィードバックはコード生成ではほとんど効果がありませんが、構造化クエリでは重要です(+10.3pp)。一方、二値シグナルによる反復は、より弱いフィードバックを部分的に補償します。

広告