潜在表現を減らしてもより良いリレーへ:潜在マルチエージェントLLM協調のための情報保持型圧縮

arXiv cs.LG / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、情報交換にフルのKVキャッシュリレーを用いる潜在マルチエージェントLLMシステムにおける高いメモリおよび通信コストの問題を扱う。
  • 保持KV状態へ、破棄したKV状態から低ランクの直交残差を追加することで情報損失を減らす、エビクション(追い出し)型のKV圧縮手法「Orthogonal Backfill(OBF)」を提案する。
  • 9つのベンチマーク(数学的推論、コーディング、知識集約型QA)での実験により、OBFがフルKVリレーと同等の性能を保ちつつ、通信コストを約79.8%〜89.4%削減できることが示される。
  • OBFは9つ中7つのベンチマークで最良の結果を達成し、「単により多く送る」ことよりも「最も有用な潜在情報を保持する」ことが有効である可能性を示唆する。
  • 著者らは、追試とさらなる発展のために公開コードベースを提供する。

概要: 大規模言語モデル(LLM)ベースのマルチエージェントシステムにおける通信は、より豊かな文脈を保持するために、離散的なトークンを超えて進みつつあります。LatentMAS のような最近の研究では、エージェントが完全なキー・バリュー(KV)キャッシュを通じて潜在メッセージを交換できるようにしています。しかし、完全なKVリレーは高いメモリおよび通信コストを招きます。本稿では、この設定に対してエビクション(退避)型のKV圧縮を適用し、ハードなエビクションによる情報損失を緩和するために Orthogonal Backfill(OBF)を導入します。OBF は、破棄されたKV状態から低ランクの直交残差を生成し、保持されたKV状態に注入します。提案手法を、数学的推論、コーディング、知識集約型QAにまたがる9つの標準ベンチマークにおいて、完全なKVリレーと比較評価します。その結果、79.8%〜89.4%の通信コスト削減を達成しつつ、完全なKVリレーと同等の性能を示します。さらにOBFは性能を向上させ、9つのベンチマークのうち7つで最良の結果を達成します。これは、より多くの情報が必ずしもより良い通信につながるとは限らないことを示唆しています。有用な情報を保持することの方が重要なのです。コードベースは https://github.com/markli404/When-Less-Latent-Leads-to-Better-Relay で公開されています。