KVパケット:LLM向けの再計算不要・コンテキスト非依存KVキャッシング
arXiv cs.AI / 2026/4/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLM推論における従来のKVキャッシュがコンテキスト依存であるため、キャッシュ済みドキュメントを新しいコンテキストで再利用する際に高コストなKVの再計算が必要になるという問題に取り組む。
- そこで、KVパケットを提案する。これは、キャッシュ済みドキュメントを不変の「パケット」として扱い、それに軽量な学習可能ソフトトークン・アダプタを付加することで、再計算なしのキャッシュ再利用を実現する枠組みである。
- アダプタは自己教師ありの蒸留によって学習され、コンテキスト変化によって生じる注意(attention)や分布の不連続を埋める。
- Llama-3.1およびQwen2.5での実験では、再計算ベースの手法に比べて追加FLOPsがほぼゼロであり、さらに時間対最初のトークン(TTFT)が改善することを示す。
- このアプローチはタスク性能を維持し、オーバーヘッドを削減しつつ、完全な再計算のベースラインと同等に近いF1スコアを達成する。