TTKV：長い文脈向けLLM推論のための時間階層型KVキャッシュ

arXiv cs.LG / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

KVキャッシュはLLM推論を効率化する重要な手法だが、文脈長に比例してメモリコストが増えるため、スケーラビリティの大きなボトルネックになっている。
本論文では、人間の記憶における「鮮明さや想起頻度、時間的近さによる重要度の違い」という発想をKVキャッシュに対応づけるTTKVを提案する。
TTKVは、異なる年齢のKV状態を重要度とアクセス性の観点で扱うため、容量と精度が異なる時間階層（ティア）にKVキャッシュを分割する。
また、遅い階層へのアクセス時にブロック単位のストリーミング注意を用いて、通信と計算を重ね合わせる工夫を入れている。
実験では128K文脈タスクで階層間のトラフィックを5.94×削減し、最大でレイテンシを76%低減、スループットを2倍改善した。

要旨: キー・バリュー（KV）キャッシュは、大規模言語モデル（LLM）における効率的な推論にとって重要ですが、そのメモリフットプリントはコンテキスト長に比例して増大し、深刻なスケーラビリティのボトルネックとなります。既存の手法の多くはKV状態を時間を通じて等しく重要だとして扱い、精度とアクセス可能性が一様であることを暗黙に仮定しています。しかし、この仮定は、人間の記憶システムが時間的近さに応じて、記憶の明瞭さ、想起頻度、関連性が変化するのとは対照的です。この洞察に動機づけられ、私たちは人間の記憶システムをKVキャッシュに対応づけるKVキャッシュ管理フレームワークであるTTKVを提案します。TTKVは、異種の容量と精度を持つ時間的ティア（階層）にKVキャッシュを分割します。設計は次の3つの側面に対処します：（1）ティア配置：HBMとDRAMを用いて高速メモリと低速メモリを切り離す；（2）ティア内容：時間的近さに基づき、より最近のKV状態をより高速で高精度のティアへ割り当てる；（3）ティア相互作用：低速ティアにアクセスする際に、ブロック単位のストリーミング注意を用いて通信と計算をオーバーラップさせる。実験の結果、TTKVは128Kコンテキスト課題においてクロスティア通信を5.94倍削減し、強力なベースラインに対して最大76%のレイテンシ削減と2倍のスループット向上を達成することが示されました。