AI Navigate

RelayCaching: デコード段階のKVキャッシュ再利用によるLLM協調の高速化

arXiv cs.LG / 2026/3/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • RelayCachingは、前のエージェントからのデコード段階のKVキャッシュを再利用して、マルチエージェントLLM協調における後続のプリフィル段階を高速化する、トレーニング不要の推論手法です。
  • アプローチは、同一内容のKVキャッシュがフェーズ間で高い一貫性を示す一方、プレフィックスによって生じる偏差はまれで、レイヤーとトークン位置の一部に限定されるという所見に依存します。
  • 偏差が生じた位置だけKVキャッシュを選択的に再計算することにより、最小限のオーバーヘッドでモデル精度を維持し、精度と効率のトレードオフを改善します。
  • 数理推論、一般知識、コード生成タスクの実験では、KVキャッシュ再利用率が80%を超え、標準パイプラインと比べて初トークンまでの時間(TTFT)を最大4.7倍削減し、精度の低下はほとんどありません。
  • この手法は、協働LLMシステムにおけるKVキャッシュのメモリ使用量とTTFTボトルネックに対処し、よりスケーラブルなマルチエージェントAIの展開を実現します。

要旨: AIタスクの複雑さが増すにつれ、モノリシックなモデルからマルチエージェントの大規模言語モデル(LLM)システムへとパラダイムがシフトしている。しかし、これらの協調アーキテクチャは重要なボトルネックを生み出す。前のエージェントによって生成された共有コンテンツの冗長なプリフィル計算がKVキャッシュのメモリ使用量とタイム・トゥ・ファースト・トークン(TTFT)を大幅に増加させる。プリフィルの冗長性を緩和するためのさまざまなKVキャッシュ手法が提案されている一方で、それらはエージェント生成出力の正確性を維持できないか、厳格な制約のため再利用率が低いことがある。我々はRelayCachingを提案します。訓練を要しない推論手法で、前のエージェントのデコーディング段階のKVキャッシュを、後続のプリフィル段階で直接再利用します。我々の重要な洞察は、同一内容のKVキャッシュはフェーズを超えて高い一貫性を持つ一方、プレフィックスによる偏差はまばらで、層とトークン位置の限定された範囲内に局在している、という点である。これらの位置でKVキャッシュを選択的に再計算することにより、RelayCachingは最小のオーバーヘッドでモデルの正確性を維持し、既存の手法よりも優れた正確性と効率のトレードオフを実現する。数理推論、一般知識、コード生成にまたがる多様な協調LLMタスクを対象とした実験により、RelayCachingは80%以上のKVキャッシュ再利用を達成し、標準パイプラインと比較してTTFTを最大で4.7 imes低減することを示す。これらはいずれも精度低下はほとんどない。