MEMAUDIT:予算付きの長期LLMメモリ書き込みを対象にした、厳密なパッケージ・オラクル評価プロトコル

arXiv cs.AI / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • MEMAUDITは、長期LLMエージェントのメモリ書き込みを、明示的なストレージ予算のもとでの“書き込み時選択”を有限で監査可能な最適化問題として捉える新しい評価手法を提案している。
  • 従来のエンドツーエンドのQA精度と絡み合う評価を避け、表現品質、妥当性状態の保持、そして予算を考慮した選択の影響を個別に測定できるようにする。
  • MEMAUDITの「パッケージ」は、経験ストリーム、候補となるメモリ表現、ストレージコスト、意味的エビデンス単位、将来クエリ要件、予算などをすべて固定し、検証可能な(certified denominatorを伴う)厳密な評価を可能にする。
  • 具体例として、concave-over-modularな意味的カバレッジ目的関数を用い、1経験あたり1表現などの制約を課したうえで、branch-and-boundとMILP証明により厳密な最適解を計算する。
  • さらに、再利用可能なパッケージ生成器、認証済みソルバ、自然なパッケージ書き出し、外部システムのスコアリング、再現性メタデータのキャッシュに加え、Mem0・A-Mem・Lettaといったストアのエクスポートも含めて提供される。

要旨: 長期的なLLMエージェントは、将来のクエリがまだ分からない段階で、過去の相互作用のストリームを永続メモリに圧縮する必要があります。既存の評価では通常、最終的な質問応答の精度を測定しますが、これはメモリへの書き込みと、検索、そして読み手の推論が絡み合うため、切り分けが難しくなっています。私たちは、予算付きの長期メモリ書き込みに対する正確なパッケージoracle評価プロトコルとしてMEMAUDITを導入します。MEMAUDITパッケージは、経験ストリーム、候補となるメモリ表現、保存コスト、意味的エビデンス単位、将来クエリ要件、そして予算を固定し、書き込み時のメモリ選択を、有限で監査可能な最適化問題へと変換します。さらに、分母が証明された(certified denominator)形で定めます。私たちはこのプロトコルを、保存と「1つの経験あたり1表現」という制約の下での、凹型のモジュール的(concave-over-modular)セマンティックカバレッジ目的で具体化し、分枝限定法(branch-and-bound)にMILPによる証明(certification)を組み合わせて、パッケージの正確な最適値を計算します。制御された正確なパッケージ群、妥当性重視のストレステスト、人手で監査した自然なサポートのスライス、そしてエクスポートされたMem0、A-Mem、Lettaストアにわたって、MEMAUDITは、表現の質、妥当性状態の保持、そして予算を考慮した選択の影響を、エンドツーエンドQAでは局在化できない形で分離します。その結果得られる成果物は、再利用可能なパッケージジェネレータ、証明付きソルバ、自然なパッケージエクスポート、外部システムのスコアラー、さらに固定された保存予算のもとでメモリライタが実際に何を保持するのかを評価するための、キャッシュされた再現可能性(reproducibility)メタデータを提供します。