確率的KVルーティング:深さ方向に適応的なキャッシュ共有を可能にする
Apple Machine Learning Journal / 2026/5/5
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、自己回帰的生成で用いられるトランスフォーマ言語モデルにおけるKVキャッシュのメモリコストが高いこと、そしてそれが提供(サービング)コストを押し上げる点を扱っています。
- 「Stochastic KV Routing(確率的KVルーティング)」により、深さ(層)方向でKVキャッシュを適応的に共有する仕組みを提案し、深さ次元を独立した最適化対象として位置づけています。
- 先行研究が示す「すべての層に完全なKVキャッシュを持つのは冗長になり得る」という知見を活かしつつ、固定的な層ごとのキャッシュ方針に依存しない設計になっています。
- 時間軸方向の削減(圧縮やエビクションなど)が中心だった従来手法に対して、本研究は深さ方向のキャッシュ共有がメモリ要件のさらなる低減につながり得ると主張します。
Serving transformer language models with high throughput requires caching Key-Values (KVs) to avoid redundant computation during autoregressive generation. The memory footprint of KV caching is significant and heavily impacts serving costs. This work proposes to lessen these memory requirements. While recent work has largely addressed KV cache reduction via compression and eviction along the temporal axis, we argue that the depth dimension offers an orthogonal and robust avenue for optimization. Although prior research suggests that a full cache for every layer is redundant, implementing…
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



