KVパケット:LLM向けの再計算不要・コンテキスト非依存KVキャッシング

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLM推論における従来のKVキャッシュがコンテキスト依存であるため、キャッシュ済みドキュメントを新しいコンテキストで再利用する際に高コストなKVの再計算が必要になるという問題に取り組む。
  • そこで、KVパケットを提案する。これは、キャッシュ済みドキュメントを不変の「パケット」として扱い、それに軽量な学習可能ソフトトークン・アダプタを付加することで、再計算なしのキャッシュ再利用を実現する枠組みである。
  • アダプタは自己教師ありの蒸留によって学習され、コンテキスト変化によって生じる注意(attention)や分布の不連続を埋める。
  • Llama-3.1およびQwen2.5での実験では、再計算ベースの手法に比べて追加FLOPsがほぼゼロであり、さらに時間対最初のトークン(TTFT)が改善することを示す。
  • このアプローチはタスク性能を維持し、オーバーヘッドを削減しつつ、完全な再計算のベースラインと同等に近いF1スコアを達成する。

Abstract

大規模言語モデル(LLM)は、推論のレイテンシを最小化するために、キー・バリュー(KV)キャッシュに大きく依存しています。しかし、標準的なKVキャッシュはコンテキスト依存です。新しいコンテキストでキャッシュ済みの文書を再利用するには、注意分布の変化を考慮するためにKV状態を再計算する必要があります。CacheBlend、EPIC、SAM-KVのような既存手法は、トークンの一部を選択的に再計算することでこの問題を緩和しますが、それでも無視できない計算オーバーヘッド(FLOPs)と、Time-to-First-Token(TTFT)の増加が生じます。本論文では、KV Packetを提案します。これは、キャッシュされた文書を不変の「パケット」とみなし、それらを軽量な学習可能ソフトトークン・アダプタで包むことで、再計算なしのキャッシュ再利用を実現する枠組みです。これらのアダプタは、自己教師あり蒸留によって学習され、コンテキストの不連続性を埋めます。Llama-3.1およびQwen2.5での実験により、提案するKV Packet手法は、再計算ベースラインに比べて近似的にゼロのFLOPsとより低いTTFTを達成しつつ、完全な再計算ベースラインと同等のF1スコアを維持できることが示されます。