M$^\star$:すべてのタスクはそれぞれ独自のメモリ・ハーネスを必要とする

arXiv cs.AI / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMエージェントに対して、固定された万能型のメモリアーキテクチャを用いるのではなく、タスク固有のメモリ「ハーネス」を自動的に見つけるアプローチ M$^\star$ を提案する。
  • M$^\star$ は、エージェントのメモリシステムを、データスキーマ、ストレージのロジック、ワークフローの指示をひとまとめにした実行可能な Python のメモリプログラムとして表現し、これらの構成要素を同時に最適化する。
  • 集団ベースの探索と、評価の失敗から得られるフィードバックを用いた、反省的なコード進化により、候補となるメモリプログラムを反復的に改良する。
  • 会話、身体性を伴う計画、専門家推論を含む4つのベンチマークにまたがる実験では、固定メモリのベースラインに対して一貫した性能向上が示される。
  • 進化したメモリプログラムは、領域ごとに構造的に異なる処理メカニズムを獲得しており、タスクの特化は汎用的なメモリのパラダイムよりも広い設計空間を開くことを示唆している。

Abstract

大規模言語モデルのエージェントは、長時間の対話中に知識を蓄積し再利用するために、専門化されたメモリシステムに依存しています。近年のアーキテクチャでは、会話に対する意味検索やコーディングに再利用されるスキルのように、特定の領域に合わせた固定のメモリ設計を採用することが一般的です。しかし、ある目的のために最適化されたメモリシステムは、他の目的へ移す際にしばしば機能しません。この制約に対処するため、実行可能なプログラム進化によってタスク最適化されたメモリ・ハーネスを自動的に発見する手法 M^\star を提案します。具体的には、M^\star はエージェントのメモリシステムを、Pythonで書かれたメモリ・プログラムとしてモデル化します。このプログラムは、データのスキーマ、ストレージのロジック、エージェントのワークフロー指示をカプセル化します。これらの構成要素を、反省的なコード進化手法によって共同で最適化します。この手法では、集団ベースの探索戦略を用い、評価失敗を分析して候補プログラムを反復的に改良します。私たちは M^\star を、会話、身体化された計画、専門家推論にまたがる4つの異なるベンチマークで評価します。その結果、M^\star は、評価したすべてのタスクにおいて、既存の固定メモリ基線より頑健に性能を向上させることを示しました。さらに、進化したメモリ・プログラムは、各ドメインに対して構造的に異なる処理メカニズムを示します。この発見は、特定のタスクに対してメモリ機構を特化させることが広い設計空間を探索し、汎用的なメモリのパラダイムよりも優れた解を提供し得ることを示唆しています。