確率的KVルーティング：深さ方向のキャッシュ共有を可能にする

arXiv cs.LG / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、トランスフォーマ言語モデルの推論サービングにおけるKV（キー・バリュー）キャッシュの高いメモリコストを、時間軸の圧縮/削除だけでなく「深さ」次元で最適化することで削減しようとする。
各層で完全なKVキャッシュを保持することは冗長になり得る一方、層間のKV共有を行う既存手法はしばしばスループット低下やtime-to-first-tokenの増加を招くと主張している。
著者らは「確率的KVルーティング」を提案し、学習中に各層が自身のKV状態か直前の層のKV状態のどちらかへランダムに注目（random cross-layer attention）する。
実験では、この確率的な学習戦略により、事前学習または微調整のいずれでも複数のモデルファミリーで深さ方向のKVキャッシュ共有が可能になり、提案設定では情報損失なくメモリを削減できることを示している。
大規模モデルかつデータ制約の強い設定では、この手法が正則化のように働き、性能を維持または改善しつつ、KVキャッシュのメモリ使用量を大幅に下げられる可能性が示唆されている。

Abstract

高スループットでトランスフォーマー言語モデルを提供するには、自己回帰生成の際に冗長な計算を避けるために、Key-Value（KV）をキャッシュする必要があります。KVキャッシュのメモリ使用量は大きく、提供コストに強く影響します。本研究は、これらのメモリ要件を軽減することを提案します。近年の研究では、時間軸に沿った圧縮やエビクションによってKVキャッシュの削減が概ね対処されてきましたが、 \emph{深さ} 次元が最適化のための、直交的で堅牢なアプローチを提供すると主張します。先行研究では、すべての層に対する完全なキャッシュは冗長であると示唆されていますが、層をまたいだキャッシュ共有の実装は実務上の課題として残っています。既存の手法は典型的に、スループットの低下または time-to-first-token の増加に悩まされます。本論文では、ある層のキャッシュを削除することで、情報損失なしに効率的な最適化が可能であることを示します。提案するのは単純な学習アプローチです：ランダムな層間（クロスレイヤー）アテンション。学習中、各層は自分自身のKV状態、または直前の層のKV状態のどちらかにランダムに注目します。この確率的な過程は、さまざまな深さ方向のキャッシュ共有戦略に対して頑健なようにモデルを適応させ、展開時に未知のハードウェア制約に対しても柔軟性を確保します。評価の結果、このスキームを事前学習または微調整の際に適用することで、さまざまなモデルファミリーに対する深さ方向のキャッシュ共有が可能になることが分かりました。さらに、データが制約された状況でのより大きなモデルにおいては、このアプローチが正則化のような効果をもたらすことが示唆されており、キャッシュのメモリ使用量を大幅に削減しつつ、性能を維持、あるいは改善することが多いことが分かりました。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/28Dailyインサイトを見る →

Claude Codeのフックで開発ワークフローを自動化する方法

Dev.to

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

Dev.to

環境型AIによる臨床記録（ドキュメント）パイプラインをどう構築したか（医師の週8時間以上を削減）

Dev.to

PicoClaw ディープダイブ：Goで超軽量AIエージェントを作るためのフィールドガイド

Dev.to

DeNAやGOなど、AI勉強会の資料を無料公開中　累計100件超

ITmedia AI+

確率的KVルーティング：深さ方向のキャッシュ共有を可能にする

要点

Abstract

💡 この記事が使われたインサイト

関連記事

Claude Codeのフックで開発ワークフローを自動化する方法

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

環境型AIによる臨床記録（ドキュメント）パイプラインをどう構築したか（医師の週8時間以上を削減）

PicoClaw ディープダイブ：Goで超軽量AIエージェントを作るためのフィールドガイド

DeNAやGOなど、AI勉強会の資料を無料公開中　累計100件超

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

💡 この記事が使われたインサイト

関連記事

Claude Codeのフックで開発ワークフローを自動化する方法

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

環境型AIによる臨床記録（ドキュメント）パイプラインをどう構築したか（医師の週8時間以上を削減）

PicoClaw ディープダイブ：Goで超軽量AIエージェントを作るためのフィールドガイド

DeNAやGOなど、AI勉強会の資料を無料公開中 累計100件超

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

DeNAやGOなど、AI勉強会の資料を無料公開中　累計100件超