PolyKV：マルチエージェントLLM推論向け共有型非対称圧縮KVキャッシュプール

arXiv cs.LG / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

PolyKVは、マルチエージェントLLM推論に向けて、通常のエージェントごとのKVキャッシュ割り当てをやめ、1つの圧縮KVキャッシュを複数のエージェントコンテキストへ注入する共有方式を提案しています。
この方式では非対称圧縮を採用し、ソフトマックス安定性のためにキーをint8（q8_0）で量子化し、値はTurboQuant（FWHT回転＋3-bit Lloyd-Max量子化）で圧縮します。
SmolLM2-1.7B-InstructとLlama-3-8B-Instructで、複数のコンテキスト長および最大15並列エージェントの条件を評価した結果、2.91×の圧縮率が構成全体で安定していることが示されています。
Llama-3-8Bで15エージェントが4Kトークンのコンテキストを共有する場合、KVキャッシュメモリを19.8GBから0.45GBへ（97.7%削減）でき、困惑度の低下はわずか+0.57%にとどまり、BERTScore F1も0.928と良好です。
困惑度の差分はエージェント数の増加で悪化せず、長いコヒーレント文脈では改善（反転）する場合があると報告されており、共有型の損失圧縮KVプールをマルチリーダー同時アクセスと組み合わせた点は先行研究上の新規性だと述べています。

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

日経XTECH

Reddit r/artificial

Reddit r/LocalLLaMA

Dev.to

Tech.eu