要旨: キー・バリュー(KV)キャッシュは、大規模言語モデル(LLM)における効率的な推論にとって重要ですが、そのメモリフットプリントはコンテキスト長に比例して増大し、深刻なスケーラビリティのボトルネックとなります。既存の手法の多くはKV状態を時間を通じて等しく重要だとして扱い、精度とアクセス可能性が一様であることを暗黙に仮定しています。しかし、この仮定は、人間の記憶システムが時間的近さに応じて、記憶の明瞭さ、想起頻度、関連性が変化するのとは対照的です。 この洞察に動機づけられ、私たちは人間の記憶システムをKVキャッシュに対応づけるKVキャッシュ管理フレームワークであるTTKVを提案します。TTKVは、異種の容量と精度を持つ時間的ティア(階層)にKVキャッシュを分割します。設計は次の3つの側面に対処します:(1)ティア配置:HBMとDRAMを用いて高速メモリと低速メモリを切り離す;(2)ティア内容:時間的近さに基づき、より最近のKV状態をより高速で高精度のティアへ割り当てる;(3)ティア相互作用:低速ティアにアクセスする際に、ブロック単位のストリーミング注意を用いて通信と計算をオーバーラップさせる。実験の結果、TTKVは128Kコンテキスト課題においてクロスティア通信を5.94倍削減し、強力なベースラインに対して最大76%のレイテンシ削減と2倍のスループット向上を達成することが示されました。
TTKV:長い文脈向けLLM推論のための時間階層型KVキャッシュ
arXiv cs.LG / 2026/4/23
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- KVキャッシュはLLM推論を効率化する重要な手法だが、文脈長に比例してメモリコストが増えるため、スケーラビリティの大きなボトルネックになっている。
- 本論文では、人間の記憶における「鮮明さや想起頻度、時間的近さによる重要度の違い」という発想をKVキャッシュに対応づけるTTKVを提案する。
- TTKVは、異なる年齢のKV状態を重要度とアクセス性の観点で扱うため、容量と精度が異なる時間階層(ティア)にKVキャッシュを分割する。
- また、遅い階層へのアクセス時にブロック単位のストリーミング注意を用いて、通信と計算を重ね合わせる工夫を入れている。
- 実験では128K文脈タスクで階層間のトラフィックを5.94×削減し、最大でレイテンシを76%低減、スループットを2倍改善した。




