KVパケット：LLM向けの再計算不要・コンテキスト非依存KVキャッシング

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLM推論における従来のKVキャッシュがコンテキスト依存であるため、キャッシュ済みドキュメントを新しいコンテキストで再利用する際に高コストなKVの再計算が必要になるという問題に取り組む。
そこで、KVパケットを提案する。これは、キャッシュ済みドキュメントを不変の「パケット」として扱い、それに軽量な学習可能ソフトトークン・アダプタを付加することで、再計算なしのキャッシュ再利用を実現する枠組みである。
アダプタは自己教師ありの蒸留によって学習され、コンテキスト変化によって生じる注意（attention）や分布の不連続を埋める。
Llama-3.1およびQwen2.5での実験では、再計算ベースの手法に比べて追加FLOPsがほぼゼロであり、さらに時間対最初のトークン（TTFT）が改善することを示す。
このアプローチはタスク性能を維持し、オーバーヘッドを削減しつつ、完全な再計算のベースラインと同等に近いF1スコアを達成する。

Abstract

大規模言語モデル（LLM）は、推論のレイテンシを最小化するために、キー・バリュー（KV）キャッシュに大きく依存しています。しかし、標準的なKVキャッシュはコンテキスト依存です。新しいコンテキストでキャッシュ済みの文書を再利用するには、注意分布の変化を考慮するためにKV状態を再計算する必要があります。CacheBlend、EPIC、SAM-KVのような既存手法は、トークンの一部を選択的に再計算することでこの問題を緩和しますが、それでも無視できない計算オーバーヘッド（FLOPs）と、Time-to-First-Token（TTFT）の増加が生じます。本論文では、KV Packetを提案します。これは、キャッシュされた文書を不変の「パケット」とみなし、それらを軽量な学習可能ソフトトークン・アダプタで包むことで、再計算なしのキャッシュ再利用を実現する枠組みです。これらのアダプタは、自己教師あり蒸留によって学習され、コンテキストの不連続性を埋めます。Llama-3.1およびQwen2.5での実験により、提案するKV Packet手法は、再計算ベースラインに比べて近似的にゼロのFLOPsとより低いTTFTを達成しつつ、完全な再計算ベースラインと同等のF1スコアを維持できることが示されます。

AIで研修刷新サイバーエージェントは上流重視、サイボウズはClaude中心へ

日経XTECH

AIエージェントによる持続可能な収益ガイド：ゼロから収益化へ

Dev.to

AIエージェントの隠れた経済学：競争市場におけるサバイバル戦略

Dev.to

大手テック企業はAIへの投資と統合を加速させている一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

AIエージェント導入の見えないコスト：エンタープライズにおける真のROIを見極めるCFOガイド

Dev.to

KVパケット：LLM向けの再計算不要・コンテキスト非依存KVキャッシング

要点

Abstract

関連記事

AIで研修刷新サイバーエージェントは上流重視、サイボウズはClaude中心へ

AIエージェントによる持続可能な収益ガイド：ゼロから収益化へ

AIエージェントの隠れた経済学：競争市場におけるサバイバル戦略

大手テック企業はAIへの投資と統合を加速させている一方で、規制当局と企業は安全性と責任ある導入に注力している

AIエージェント導入の見えないコスト：エンタープライズにおける真のROIを見極めるCFOガイド

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

AIで研修刷新 サイバーエージェントは上流重視、サイボウズはClaude中心へ

AIエージェントによる持続可能な収益ガイド：ゼロから収益化へ

AIエージェントの隠れた経済学：競争市場におけるサバイバル戦略

大手テック企業はAIへの投資と統合を加速させている一方で、規制当局と企業は安全性と責任ある導入に注力している

AIエージェント導入の見えないコスト：エンタープライズにおける真のROIを見極めるCFOガイド

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIで研修刷新サイバーエージェントは上流重視、サイボウズはClaude中心へ