IceCache:長系列LLMに向けたメモリ効率の高いKVキャッシュ管理

arXiv cs.LG / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • IceCacheは、限られたハードウェア上での線形的なメモリ成長というボトルネックを対象とする、長系列LLM推論のための新しいKVキャッシュ管理手法である。
  • これは、セマンティック・トークンクラスタリングとPagedAttentionを組み合わせ、階層的で動的に更新可能な構造によって、意味的に関連するトークンを連続したメモリ領域に保持し、より効率的な選択とCPU↔GPU間の転送を可能にする。
  • LongBenchに関する実験では、256トークンの予算で、IceCacheは完全なKVキャッシュのベースライン精度の約99%を維持することが示されている。
  • 他のKVオフロード手法と比較して、IceCacheはレイテンシ/精度の点で競争力、あるいはそれ以上を達成しつつ、必要とするのはKVキャッシュのトークン予算の約25%のみである。特に長い生成タスクで効果が大きい。
  • 本論文では、再現および技術の発展に利用できる実装がプロジェクトサイトで公開されている。