DASH-KV:非対称KVキャッシュ・ハッシングで長文コンテキストLLM推論を高速化
arXiv cs.CL / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本論文は、標準的な注意機構が持つ二次的な計算コストを削減することで、長文コンテキストLLM推論を高速化するDASH-KVを提案している。
- DASH-KVは、注意を非対称な深層ハッシングによる近似最近傍探索として作り替え、クエリとキーの違いを踏まえて符号化を設計している。
- 効率と精度の両立のため、重要トークンに対しては動的に高精度(フル精度)計算を保持する混合精度メカニズムを導入している。
- LongBenchでの実験では、DASH-KVが先行のKVキャッシュ圧縮やベースライン手法を大きく上回り、フルアテンションと同等の性能を保ちつつ、計算量をO(N^2)から線形のO(N)に削減できることが示されている。
- 著者は検証や導入を支援するために、GitHubリンク先で実装コードを公開している。




