要約: 複数モデル推論は最近、特にエージェント型AIシステムの開発において顕著なパラダイムとして浮上しています。しかしこのような状況では、各モデルは同一のプロンプトに対して独自のKey-Value (KV) キャッシュを保持する必要があり、結果として大幅なメモリ消費を招きます。KVキャッシュのこの爆発的な増加は、LLMサービングシステムに以前に格納されたキャッシュを追い出すことを強制し、それによって追い出されたキャッシュが再び必要になるたびに顕著な再計算オーバーヘッドを生じます。さらに、プレフィックスキャッシュは異なるモデル間で本質的に実現不能であり、各モデルが同一プロンプトのKVキャッシュを再計算することを強いられ、顕著なオーバーヘッドを引き起こします。これらの問題を緩和するため、Identical Cache Reuse(ICaRus)という新規アーキテクチャを提案します。これは、全層にわたって複数のモデルが同一KVキャッシュを共有できるようにします。ICaRusは、デコーダーのみのTransformerは、KVキャッシュを生成する論理エンコーダーと、KVキャッシュから出力トークンを予測する論理デコーダーに概念的に分解できるという重要な観察に基づいています。ICaRusは論理エンコーダを固定化し、論理デコーダだけをファインチューニングすることで、複数のモデルが同一KVキャッシュを共有できるようにします。これによりキャッシュメモリの爆発的な増加と予期せぬ追い出しを排除しつつ、新しい入力トークンに対するKVキャッシュのモデル間再利用を可能にし、多モデル推論における冗長な再計算を排除し、効率とスケーラビリティの両立を達成します。さらに、LoRAなどの軽量アダプターを組み込むことにより、ICaRusはデコード中のKVキャッシュ生成と次トークン予測を並列化します。ICaRusは、多様なタスク群においてタスク特化型ファインチューニングモデルと同等の精度を達成しつつ、複数の専門モデルがKVキャッシュを完全に共有できるようにします。従来のマルチモデルシステムと比較して、8つの異なるモデルを用いたマルチエージェントワークフローでは、P95レイテンシを最大で11.1倍低減し、スループットを最大で3.8倍向上させます。)
ICaRus: 効率的なマルチモデル推論のための同一キャッシュ再利用
arXiv cs.LG / 2026/3/17
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- ICaRusは、Identical Cache Reuse(同一キャッシュ再利用)を提案し、複数のモデルが全層で同一のKVキャッシュを共有できるようにすることで、マルチモデル推論におけるメモリ使用量を劇的に削減します。
- 本手法は、デコーダーのみからなるトランスフォーマーを、KVキャッシュを生成する論理的エンコーダとして、またそれらのキャッシュからトークンを生成する論理的デコーダとして概念化し、エンコーダを凍結したままデコーダのみを訓練できるようにします。
- エンコーダを凍結し、LoRAのような軽量アダプタを用いることで、ICaRusはモデル間のキャッシュ共有と、次トークン予測を伴う並列KVキャッシュ生成を実現し、再計算を削減します。
- 8モデルを用いた実験で、ICaRusはP95レイテンシを最大で11.1倍低減し、スループットを最大で3.8倍向上させつつ、タスク固有のファインチューニング済みベースラインと同等の精度を維持します。
- このアプローチは、マルチモデルシステムにおけるキャッシュメモリの爆発と置換を排除し、エージェント型AIワークフローに対してスケーラブルな効率向上を提供します。