コンパイル済みメモリ: 情報を増やすのではなく、言語エージェントへの指示をより正確にする

arXiv cs.AI / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

Atlas は、蓄積されたタスク経験をエージェントの指示構造に組み込むメモリカーネルであり、ファインチューニング、RAG、または人間の介入なしに機能する（RAG は Retrieval-Augmented Generation の略）。
メモリは蒸留として位置づけられ、デリバリーは、学習済みのサブ箇条を用いてエージェントのシステムプロンプトを書き換えることによって達成される。データを保存したり文脈を挿入したりするのではない。
実証的結果は、タスク全体で顕著な向上を示す。CUAD契約分析のGPT-4oはF1を+8.7ポイント、精度を+12.5ポイント向上。HotpotQAのマルチホップQAはF1を+3.16ポイント向上。Claude Sonnet 4.5 もジョイントF1を+2.31ポイント向上の恩恵を受ける。
アブレーションは、訓練信号の制約を浮き彫りにする。進化したプロンプトは、教えられた内容を正確に学習しており、知識はタスク志向であり、モデル志向ではないことを示している。

要約: 言語エージェントの既存のメモリシステムはメモリ管理を扱い、コンテキスト予算内でより多くの情報を取得・ページする方法を提供します。私たちは補完的な問題――メモリの有用性――何の経験を保持する価値があり、それがエージェントの挙動をどう変えるべきか――に取り組みます。Atlas を提示します。Atlas は蓄積されたタスク経験をエージェントの指示構造に組み込むメモリカーネルであり、ファインチューニング、RAG、または人間の介入なしに実現します。メモリは蒸留であり、保存ではありません；提供は指示の書き換えであり、コンテキストの注入ではありません。エージェントの失敗と成功から抽出された事実は三段階の昇格ゲートを通じて検証され、学習済みのサブ箇条を用いてエージェントのシステムプロンプトを書き換えて提供されます。CUAD 契約分析では、進化したプロンプトが GPT-4o のトークンレベル F1 を +8.7pp、精度を +12.5pp 改善します。HotpotQA のマルチホップ QA では、結合 F1 が +3.16pp 改善します。アブレーションは機構の定義的性質を分離します――訓練信号の制約：進化したプロンプトは教えられた内容を正確に学習し、それ以上のものは学習しません。Claude Sonnet 4.5 に同じ進化プロンプトを用いて適用すると――GPT-4o のエラーからコンパイルされ、変更なし――結合 F1 は +2.31pp 改善し、Claude のより強いベースラインが最も余地を残す場所に利得が集中します――コンパイルされた知識はタスク形状であり、モデル形状ではないことを確認します。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

コンパイル済みメモリ: 情報を増やすのではなく、言語エージェントへの指示をより正確にする

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer