Knowledge Packs:KVキャッシュへの注入によるゼロ・トークン知識配信

arXiv cs.CL / 2026/4/7

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は「Knowledge Packs」を提案しており、事前計算したKVキャッシュの注入を用いることで、追加のトークンコストなしにRAGの知識を提供し、RAGワークフローに固有のトークン浪費をなくすことを目指している。
  • 因果(causal)トランスフォーマに対して厳密なKVキャッシュ同値性を主張している。すなわち、テキストFに対するフォワードパスで得られるKVキャッシュは、F+qを共同で処理した場合に生成されるキャッシュと一致する。ただし、この同値性はチャットテンプレートのフォーマットミスに対して脆い。
  • 正しいフォーマットが使われている場合、Qwen3-8BおよびLlama-3.1-8Bに対する700問の実験でゼロのダイバージェンスが報告され、一般的なRAG手法と比べて最大95%のトークン削減を達成している。
  • さらに、このKVインターフェースにより、RAGでは再現できない「振る舞いのスティアリング(behavioral steering)」が可能になると主張している。具体的には、キャッシュされた値に対して対比(contrastive)の差分(deltas)を適用することで実現する(ただし、RoPEの挙動によりキー側の算術は整合性を壊すため、ここに注意がある)。
  • 著者らは、スティアリングをキャッシュされた知識と同時に適用できることを報告しており(alpha≤0.7)、干渉は起きないという。また、スティアリング効果は主に中間層の値状態(33〜66%)で生じるとしている。

Abstract

RAGはトークンを浪費します。私たちはKnowledge Packs(知識パック)を提案します。これは、同じ知識をゼロ・トークン・コストで提供する事前計算済みのKVキャッシュです。因果型トランスフォーマでは、テキストFに対するフォワードパスのKVキャッシュは、F+qに対する結合パスが生成するものと同一です——これは因果マスクから直接導かれます。この同値性は厳密ですが脆いです。誤ったチャットテンプレートのフォーマッティングは6-7ppの劣化を引き起こし、これがこれまでの「KVはRAGを上回る」といった主張の原因だと私たちは考えています。正しいフォーマッティングでは、Qwen3-8BとLlama-3.1-8Bの700問に対して発散(divergence)がゼロで、最大95%のトークン節約を達成します。さらにKVインターフェースは、RAGではできない行動(behavior)の誘導を可能にします。RoPEはキーを回転させますが値はそのまま残すため、キャッシュされた値に対する対照的な差分(contrastive deltas)は、キーの演算がコヒーレンスを破壊してしまうのに対して、モデルの振る舞いをわずかに(nudge)調整できます。この効果は中間層の値(33-66%)に位置し、独立な方向はほぼ直交です(cos~0)。そしてそれらは合成(compose)されます。知識チャネルと誘導チャネルの両方が、干渉なしにalpha<=0.7で同時に動作します。学習も、重みの変更もありません。