計算機科学 > 分散・並列・クラスタ計算
arXiv:2603.08743 (cs)
[2026年3月1日に投稿]
題名:Zipage: Compressed PagedAttention による LLM 推論のための高い要求同時実行数の維持
著者:Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu Wan
Mengqi Liao およびほか 8 名の著者による論文「Zipage: Compressed PagedAttention による LLM 推論のための高い要求同時実行数の維持」の PDF を表示
PDF を表示
HTML(実験的)
要旨:推論が大規模言語モデル(LLM)の生成パラダイムになってきているが、デコード段階における KV キャッシュによるメモリ・ボトルネックは、高い同時実行サービスを制限する重要な要因となっている。既存の KV キャッシュ退避(eviction)手法はメモリ問題に対処しているものの、ほとんどは産業グレードのアプリケーションにとって実用的ではない。本論文では、Token 単位の KV キャッシュ退避と PagedAttention を組み合わせた手法である Compressed PagedAttention を提案する。さらに、包括的なスケジューリング戦略を提案し、Compressed PagedAttention に対する prefix caching と非同期圧縮をサポートする。これに基づき、高い同時実行性を実現する LLM 推論エンジン Zipage を開発した。大規模な数学的推論タスクにおいて、Zipage は Full KV 推論エンジンの性能の約 95%を達成しつつ、2.1$ imes$ 以上の高速化を提供する。
| 分野: | 分散・並列・クラスタ計算(cs.DC); 人工知能(cs.AI) |
| 次の形式で引用: | arXiv:2603.08743 [cs.DC] |
| (このバージョンの場合は arXiv:2603.08743v1 [cs.DC]) | |
| https://doi.org/10.48550/arXiv.2603.08743
詳しく学ぶにはここにフォーカス
DataCite 経由で発行された arXiv DOI
|
BibTeX引用をエクスポート
読み込み中...
書誌ツール
コード、データ、メディア
デモ
関連論文
arXivLabs について
書誌および引用ツール
書誌エクスプローラー切り替え
書誌エクスプローラー (エクスプローラーとは?)
Connected Papers 切り替え
Connected Papers (Connected Papers とは?)
Litmaps 切り替え
Litmaps (Litmaps とは?)
scite.ai 切り替え
scite スマート引用 (スマート引用とは?)
この論文に関連付けられたコード、データ、メディア
alphaXiv 切り替え
alphaXiv (alphaXiv とは?)
コードへのリンク切り替え
論文向け CatalyzeX コード検索 (CatalyzeX とは?)
DagsHub トグル
DagsHub (DagsHub とは?)
GotitPub トグル
Gotit.pub (GotitPub とは?)
Huggingface トグル
Hugging Face (Huggingface とは?)
コードへのリンク トグル
Papers with Code (Papers with Code とは?)
ScienceCast トグル
ScienceCast (ScienceCast とは?)
デモ
Replicate トグル
Replicate (Replicate とは?)
Spaces トグル
Hugging Face Spaces (Spaces とは?)
Spaces トグル
TXYZ.AI (TXYZ.AI とは?)
レコメンダーと検索ツール
Influence Flower へのリンク
Influence Flower (Influence Flower とは?)
Core レコメンダー トグル
CORE レコメンダー (CORE とは?)
arXivLabs:コミュニティの協力者と取り組む実験的プロジェクト
arXivLabs は、協力者が当社のウェブサイト上で新しい arXiv の機能を直接開発し、共有できるようにするためのフレームワークです。
arXivLabs に取り組む個人および組織の双方が、公開性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、これを尊重しています。arXiv はこれらの価値観にコミットしており、それらを遵守するパートナーとのみ連携します。
arXiv のコミュニティに価値を加えるプロジェクトのアイデアはありますか? arXivLabs についてさらに詳しく。




