確率的KVルーティング:深さ方向のキャッシュ共有を可能にする
arXiv cs.LG / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、トランスフォーマ言語モデルの推論サービングにおけるKV(キー・バリュー)キャッシュの高いメモリコストを、時間軸の圧縮/削除だけでなく「深さ」次元で最適化することで削減しようとする。
- 各層で完全なKVキャッシュを保持することは冗長になり得る一方、層間のKV共有を行う既存手法はしばしばスループット低下やtime-to-first-tokenの増加を招くと主張している。
- 著者らは「確率的KVルーティング」を提案し、学習中に各層が自身のKV状態か直前の層のKV状態のどちらかへランダムに注目(random cross-layer attention)する。
- 実験では、この確率的な学習戦略により、事前学習または微調整のいずれでも複数のモデルファミリーで深さ方向のKVキャッシュ共有が可能になり、提案設定では情報損失なくメモリを削減できることを示している。
- 大規模モデルかつデータ制約の強い設定では、この手法が正則化のように働き、性能を維持または改善しつつ、KVキャッシュのメモリ使用量を大幅に下げられる可能性が示唆されている。



