確率的KVルーティング:深さ方向のキャッシュ共有を可能にする

arXiv cs.LG / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、トランスフォーマ言語モデルの推論サービングにおけるKV(キー・バリュー)キャッシュの高いメモリコストを、時間軸の圧縮/削除だけでなく「深さ」次元で最適化することで削減しようとする。
  • 各層で完全なKVキャッシュを保持することは冗長になり得る一方、層間のKV共有を行う既存手法はしばしばスループット低下やtime-to-first-tokenの増加を招くと主張している。
  • 著者らは「確率的KVルーティング」を提案し、学習中に各層が自身のKV状態か直前の層のKV状態のどちらかへランダムに注目(random cross-layer attention)する。
  • 実験では、この確率的な学習戦略により、事前学習または微調整のいずれでも複数のモデルファミリーで深さ方向のKVキャッシュ共有が可能になり、提案設定では情報損失なくメモリを削減できることを示している。
  • 大規模モデルかつデータ制約の強い設定では、この手法が正則化のように働き、性能を維持または改善しつつ、KVキャッシュのメモリ使用量を大幅に下げられる可能性が示唆されている。

Abstract

高スループットでトランスフォーマー言語モデルを提供するには、自己回帰生成の際に冗長な計算を避けるために、Key-Value(KV)をキャッシュする必要があります。KVキャッシュのメモリ使用量は大きく、提供コストに強く影響します。本研究は、これらのメモリ要件を軽減することを提案します。近年の研究では、時間軸に沿った圧縮やエビクションによってKVキャッシュの削減が概ね対処されてきましたが、 \emph{深さ} 次元が最適化のための、直交的で堅牢なアプローチを提供すると主張します。先行研究では、すべての層に対する完全なキャッシュは冗長であると示唆されていますが、層をまたいだキャッシュ共有の実装は実務上の課題として残っています。既存の手法は典型的に、スループットの低下または time-to-first-token の増加に悩まされます。本論文では、ある層のキャッシュを削除することで、情報損失なしに効率的な最適化が可能であることを示します。提案するのは単純な学習アプローチです:ランダムな層間(クロスレイヤー)アテンション。学習中、各層は自分自身のKV状態、または直前の層のKV状態のどちらかにランダムに注目します。この確率的な過程は、さまざまな深さ方向のキャッシュ共有戦略に対して頑健なようにモデルを適応させ、展開時に未知のハードウェア制約に対しても柔軟性を確保します。評価の結果、このスキームを事前学習または微調整の際に適用することで、さまざまなモデルファミリーに対する深さ方向のキャッシュ共有が可能になることが分かりました。さらに、データが制約された状況でのより大きなモデルにおいては、このアプローチが正則化のような効果をもたらすことが示唆されており、キャッシュのメモリ使用量を大幅に削減しつつ、性能を維持、あるいは改善することが多いことが分かりました。