AI Navigate

IndexCache: クロスレイヤーのインデックス再利用によるスパースアテンションの高速化

Reddit r/LocalLLaMA / 2026/3/14

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • IndexCache は SGLang および vLLM のパッチを提供し、DeepSeek Sparse Attention (DSA) を使用するモデルの推論を加速します。対象には DeepSeek-V3.2 および GLM-5 を含みます。
  • このアプローチはレイヤー間のインデックス再利用を可能にし、DSA におけるインデックス作成の計算を最大75%削減し、プレフィルで最大1.82倍、デコードで最大1.48倍のスピードアップを、品質の低下はほとんどなく実現します。
  • パッチはわずか1つの if/else 分岐のみを使用し、追加の GPU メモリを使用せず、リストに挙げたモデル/アーキテクチャをサポートします。
  • このパッチは /u/pmttyji の協力によるもので、THUDM の IndexCache リポジトリにホストされており、コミュニティにとって実用的なツール改善を示しています。
IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

このリポジトリは、SGLang および vLLM のパッチを提供し、IndexCache 推論の加速を可能にします。対象には DeepSeek-V3.2 および GLM-5 を含みます。

TL;DR: IndexCache はレイヤー間のインデックス再利用を介して DSA におけるインデックス作成の計算を最大で 75% 削減し、プレフィルで最大 1.82× の速度向上、デコードで最大 1.48× の速度向上を、品質の低下はほとんどなく実現します。1つの if/else 分岐、追加の GPU メモリはゼロです。

Baseline IndexCache (1/4) Speedup
プレフィル (200K) 19.5s 10.7s 1.82倍
デコード (200K) 58 トークン/秒 86 トークン/秒 1.48倍

✅ 対応モデル

モデル アーキテクチャ 対応
DeepSeek-V3.2 DeepseekV32ForCausalLM
GLM-5 (744B) GlmMoeDsaForCausalLM

DSA インデクサを使用する任意のモデルは、このパッチの恩恵を受けます。

以下のリンク経由で https://xcancel.com/realYushiBai/status/2032299919999189107#m

#JustSharing

投稿者 /u/pmttyji
[リンク] [コメント]