IndexCache: クロスレイヤーのインデックス再利用によるスパースアテンションの高速化

Reddit r/LocalLLaMA / 2026/3/14

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

IndexCache は SGLang および vLLM のパッチを提供し、DeepSeek Sparse Attention (DSA) を使用するモデルの推論を加速します。対象には DeepSeek-V3.2 および GLM-5 を含みます。
このアプローチはレイヤー間のインデックス再利用を可能にし、DSA におけるインデックス作成の計算を最大75%削減し、プレフィルで最大1.82倍、デコードで最大1.48倍のスピードアップを、品質の低下はほとんどなく実現します。
パッチはわずか1つの if/else 分岐のみを使用し、追加の GPU メモリを使用せず、リストに挙げたモデル/アーキテクチャをサポートします。
このパッチは /u/pmttyji の協力によるもので、THUDM の IndexCache リポジトリにホストされており、コミュニティにとって実用的なツール改善を示しています。

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

このリポジトリは、SGLang および vLLM のパッチを提供し、IndexCache 推論の加速を可能にします。対象には DeepSeek-V3.2 および GLM-5 を含みます。

TL;DR: IndexCache はレイヤー間のインデックス再利用を介して DSA におけるインデックス作成の計算を最大で 75% 削減し、プレフィルで最大 1.82× の速度向上、デコードで最大 1.48× の速度向上を、品質の低下はほとんどなく実現します。1つの if/else 分岐、追加の GPU メモリはゼロです。

	Baseline	IndexCache (1/4)	Speedup
プレフィル (200K)	19.5s	10.7s	1.82倍
デコード (200K)	58 トークン/秒	86 トークン/秒	1.48倍

✅ 対応モデル

モデル	アーキテクチャ	対応
DeepSeek-V3.2	`DeepseekV32ForCausalLM`	✅
GLM-5 (744B)	`GlmMoeDsaForCausalLM`	✅

DSA インデクサを使用する任意のモデルは、このパッチの恩恵を受けます。

以下のリンク経由で https://xcancel.com/realYushiBai/status/2032299919999189107#m

#JustSharing

投稿者 /u/pmttyji
[リンク] [コメント]

「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に

Publickey

AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に

Publickey

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

2026年版：AIでLinkedInプロフィールを最適化して採用担当者に見つけてもらう方法

Dev.to

IndexCache: クロスレイヤーのインデックス再利用によるスパースアテンションの高速化

要点

✅ 対応モデル

関連記事

「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に

AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

2026年版：AIでLinkedInプロフィールを最適化して採用担当者に見つけてもらう方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer