| このリポジトリは、SGLang および vLLM のパッチを提供し、IndexCache 推論の加速を可能にします。対象には DeepSeek-V3.2 および GLM-5 を含みます。
✅ 対応モデル
DSA インデクサを使用する任意のモデルは、このパッチの恩恵を受けます。 以下のリンク経由で https://xcancel.com/realYushiBai/status/2032299919999189107#m #JustSharing [リンク] [コメント] |
IndexCache: クロスレイヤーのインデックス再利用によるスパースアテンションの高速化
Reddit r/LocalLLaMA / 2026/3/14
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- IndexCache は SGLang および vLLM のパッチを提供し、DeepSeek Sparse Attention (DSA) を使用するモデルの推論を加速します。対象には DeepSeek-V3.2 および GLM-5 を含みます。
- このアプローチはレイヤー間のインデックス再利用を可能にし、DSA におけるインデックス作成の計算を最大75%削減し、プレフィルで最大1.82倍、デコードで最大1.48倍のスピードアップを、品質の低下はほとんどなく実現します。
- パッチはわずか1つの if/else 分岐のみを使用し、追加の GPU メモリを使用せず、リストに挙げたモデル/アーキテクチャをサポートします。
- このパッチは /u/pmttyji の協力によるもので、THUDM の IndexCache リポジトリにホストされており、コミュニティにとって実用的なツール改善を示しています。
関連記事
「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に
Publickey
AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に
Publickey
エッジコンピューティングとローカル処理への大規模な移行
Dev.to
仕様駆動開発における自己改良エージェント
Dev.to
2026年版:AIでLinkedInプロフィールを最適化して採用担当者に見つけてもらう方法
Dev.to