要約: 言語エージェントの既存のメモリシステムはメモリ管理を扱い、コンテキスト予算内でより多くの情報を取得・ページする方法を提供します。私たちは補完的な問題――メモリの有用性――何の経験を保持する価値があり、それがエージェントの挙動をどう変えるべきか――に取り組みます。Atlas を提示します。Atlas は蓄積されたタスク経験をエージェントの指示構造に組み込むメモリカーネルであり、ファインチューニング、RAG、または人間の介入なしに実現します。メモリは蒸留であり、保存ではありません;提供は指示の書き換えであり、コンテキストの注入ではありません。エージェントの失敗と成功から抽出された事実は三段階の昇格ゲートを通じて検証され、学習済みのサブ箇条を用いてエージェントのシステムプロンプトを書き換えて提供されます。CUAD 契約分析では、進化したプロンプトが GPT-4o のトークンレベル F1 を +8.7pp、精度を +12.5pp 改善します。HotpotQA のマルチホップ QA では、結合 F1 が +3.16pp 改善します。アブレーションは機構の定義的性質を分離します――訓練信号の制約:進化したプロンプトは教えられた内容を正確に学習し、それ以上のものは学習しません。Claude Sonnet 4.5 に同じ進化プロンプトを用いて適用すると――GPT-4o のエラーからコンパイルされ、変更なし――結合 F1 は +2.31pp 改善し、Claude のより強いベースラインが最も余地を残す場所に利得が集中します――コンパイルされた知識はタスク形状であり、モデル形状ではないことを確認します。
コンパイル済みメモリ: 情報を増やすのではなく、言語エージェントへの指示をより正確にする
arXiv cs.AI / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Atlas は、蓄積されたタスク経験をエージェントの指示構造に組み込むメモリカーネルであり、ファインチューニング、RAG、または人間の介入なしに機能する(RAG は Retrieval-Augmented Generation の略)。
- メモリは蒸留として位置づけられ、デリバリーは、学習済みのサブ箇条を用いてエージェントのシステムプロンプトを書き換えることによって達成される。データを保存したり文脈を挿入したりするのではない。
- 実証的結果は、タスク全体で顕著な向上を示す。CUAD契約分析のGPT-4oはF1を+8.7ポイント、精度を+12.5ポイント向上。HotpotQAのマルチホップQAはF1を+3.16ポイント向上。Claude Sonnet 4.5 もジョイントF1を+2.31ポイント向上の恩恵を受ける。
- アブレーションは、訓練信号の制約を浮き彫りにする。進化したプロンプトは、教えられた内容を正確に学習しており、知識はタスク志向であり、モデル志向ではないことを示している。