AI Navigate

MEMO: 頑健なマルチターン・マルチエージェントLLMゲームのためのメモリ増強型モデルコンテキスト最適化

arXiv cs.AI / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • マルチターン・マルチエージェント大規模言語モデル(LLM)ゲーム評価では、累積的な逸脱やプロンプトによる方針の違いに起因する実行ごとの大きな変動が発生し、ランキングの信頼性が低下する。
  • MEMOフレームワークは、持続的なメモリの保持と不確実性に配慮したTrueSkillランキングを用いたトーナメント形式のプロンプト進化による探索を組み合わせ、推論時のコンテキストを最適化するメモリ増強型自己対戦アプローチを導入する。
  • MEMOは5つのテキストベースゲームにおいて、GPT-4o-miniおよびQwen-2.5-7B-Instructの平均勝率を大幅に向上させるとともに、変動率を低減し、プロンプトの変化による性能ランキングの安定化を実現する。
  • この手法は特に交渉や不完全情報ゲームで効果が高く、コンテキスト最適化によってマルチエージェントLLMの堅牢性と性能を大幅に向上させる可能性を示唆している。
  • MEMOの結果は、強化学習が完全情報ゲームにおいて依然として優れていることを示しており、両者の手法が相補的な強みを持つことを示している。

要旨: マルチターン・マルチエージェントLLMゲーム評価はしばしば実行毎に大きな変動を示す。長期の相互作用において、初期の小さな逸脱がターンを重ねるごとに累積し、マルチエージェントの結合によって増幅される。これにより勝率推定にバイアスがかかり、繰り返しトーナメントでのランキングが信頼できなくなる。さらにプロンプトの選択は異なる効果的方針を生み出し、これを悪化させる。我々はMEMO(Memory-augmented MOdel context optimization)を用いて、保持と探索を結合することで推論時のコンテキストを最適化する自己対戦フレームワークで、安定性と性能不足の両方に対処する。保持は自己対戦軌跡から構造化された洞察を保存する持続的なメモリバンクを維持し、後のプレイで事前情報として注入する。探索は不確実性に配慮したTrueSkillによる選択を伴うトーナメント形式のプロンプト進化を実行し、優先度付きリプレイを用いて希少かつ決定的な状態を再訪する。5つのテキストベースゲーム全体で、MEMOはGPT-4o-miniの平均勝率を25.1%から49.5%に、Qwen-2.5-7B-Instructを20.9%から44.3%に引き上げており、各タスクにおいて2,000回の自己対戦ゲームを使用している。実行ごとの変動も減少し、プロンプトの変動に対してより安定したランキングを実現している。これらの結果は、マルチエージェントLLMゲームの性能と堅牢性がコンテキスト最適化により大幅に改善できる余地があることを示唆している。MEMOは交渉や不完全情報ゲームで最大の効果を示す一方、強化学習は完全情報環境で依然として効果的である。