Abstract
大規模言語モデルのエージェントは、長時間の対話中に知識を蓄積し再利用するために、専門化されたメモリシステムに依存しています。近年のアーキテクチャでは、会話に対する意味検索やコーディングに再利用されるスキルのように、特定の領域に合わせた固定のメモリ設計を採用することが一般的です。しかし、ある目的のために最適化されたメモリシステムは、他の目的へ移す際にしばしば機能しません。この制約に対処するため、実行可能なプログラム進化によってタスク最適化されたメモリ・ハーネスを自動的に発見する手法 M^\star を提案します。具体的には、M^\star はエージェントのメモリシステムを、Pythonで書かれたメモリ・プログラムとしてモデル化します。このプログラムは、データのスキーマ、ストレージのロジック、エージェントのワークフロー指示をカプセル化します。これらの構成要素を、反省的なコード進化手法によって共同で最適化します。この手法では、集団ベースの探索戦略を用い、評価失敗を分析して候補プログラムを反復的に改良します。私たちは M^\star を、会話、身体化された計画、専門家推論にまたがる4つの異なるベンチマークで評価します。その結果、M^\star は、評価したすべてのタスクにおいて、既存の固定メモリ基線より頑健に性能を向上させることを示しました。さらに、進化したメモリ・プログラムは、各ドメインに対して構造的に異なる処理メカニズムを示します。この発見は、特定のタスクに対してメモリ機構を特化させることが広い設計空間を探索し、汎用的なメモリのパラダイムよりも優れた解を提供し得ることを示唆しています。