Knowledge Packs:KVキャッシュへの注入によるゼロ・トークン知識配信
arXiv cs.CL / 2026/4/7
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は「Knowledge Packs」を提案しており、事前計算したKVキャッシュの注入を用いることで、追加のトークンコストなしにRAGの知識を提供し、RAGワークフローに固有のトークン浪費をなくすことを目指している。
- 因果(causal)トランスフォーマに対して厳密なKVキャッシュ同値性を主張している。すなわち、テキストFに対するフォワードパスで得られるKVキャッシュは、F+qを共同で処理した場合に生成されるキャッシュと一致する。ただし、この同値性はチャットテンプレートのフォーマットミスに対して脆い。
- 正しいフォーマットが使われている場合、Qwen3-8BおよびLlama-3.1-8Bに対する700問の実験でゼロのダイバージェンスが報告され、一般的なRAG手法と比べて最大95%のトークン削減を達成している。
- さらに、このKVインターフェースにより、RAGでは再現できない「振る舞いのスティアリング(behavioral steering)」が可能になると主張している。具体的には、キャッシュされた値に対して対比(contrastive)の差分(deltas)を適用することで実現する(ただし、RoPEの挙動によりキー側の算術は整合性を壊すため、ここに注意がある)。
- 著者らは、スティアリングをキャッシュされた知識と同時に適用できることを報告しており(alpha≤0.7)、干渉は起きないという。また、スティアリング効果は主に中間層の値状態(33〜66%)で生じるとしている。




