SemantiCache: セマンティックチャンク化とクラスタリング統合によるKVキャッシュの効率的な圧縮

arXiv cs.CL / 2026/3/17

📰 ニュースModels & Research

要点

  • SemantiCacheは、圧縮を言語構造と一致させることで意味的整合性を保つ、セマンティック認識を備えたKVキャッシュ圧縮フレームワークを提案します。
  • キャッシュを自然な意味境界に沿って意味的に整合したチャンクに分割し、各チャンク内で貪欲なシードベースのクラスタリングを適用して意味的クラスタを形成します。
  • クラスタは意味的コアへ統合され、統合後のアテンションを再バランスさせるためにProportional Attention機構で強化されます。
  • 経験的な結果として、デコード速度は最大で2.61倍向上し、メモリフットプリントの大幅な削減を示し、元のモデルと同等の性能を維持します。