Zipage: 圧縮PagedAttentionによるLLM推論での高リクエスト同時実行性の維持

arXiv cs.AI / 2026/3/11

Developer Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

原文を読む →

共有:

要点

本論文は、トークン単位のKVキャッシュ削除とPagedAttentionを組み合わせた新手法である圧縮PagedAttentionを提案し、LLMデコーディング時のKVキャッシュのメモリボトルネックを解決します。
圧縮PagedAttentionを基盤とした高同時実行性LLM推論エンジンZipageは、プレフィックスキャッシュと非同期圧縮をサポートし、推論タスクを最適化します。
大規模数学推論ベンチマークにおいて、ZipageはフルKV推論エンジンの性能の約95%を達成しつつ、2.1倍以上の高速化を実現し、リクエストの同時実行性を大幅に向上させています。
提案するスケジューリング戦略とメモリ最適化技術により、Zipageは高い同時実行性とメモリ制約が重要な産業用途において実用的かつ効率的です。
この革新は推論時のLLM推論効率向上を直接的に狙い、生成系LLMのよりスケーラブルかつ高速なサービス展開を可能にします。

計算機科学 > 分散・並列・クラスタ計算

arXiv:2603.08743 (cs)

[2026年3月1日に投稿]

題名:Zipage: Compressed PagedAttention による LLM 推論のための高い要求同時実行数の維持

著者:Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu Wan

Mengqi Liao およびほか 8 名の著者による論文「Zipage: Compressed PagedAttention による LLM 推論のための高い要求同時実行数の維持」の PDF を表示

PDF を表示 HTML（実験的）

要旨:推論が大規模言語モデル（LLM）の生成パラダイムになってきているが、デコード段階における KV キャッシュによるメモリ・ボトルネックは、高い同時実行サービスを制限する重要な要因となっている。既存の KV キャッシュ退避（eviction）手法はメモリ問題に対処しているものの、ほとんどは産業グレードのアプリケーションにとって実用的ではない。本論文では、Token 単位の KV キャッシュ退避と PagedAttention を組み合わせた手法である Compressed PagedAttention を提案する。さらに、包括的なスケジューリング戦略を提案し、Compressed PagedAttention に対する prefix caching と非同期圧縮をサポートする。これに基づき、高い同時実行性を実現する LLM 推論エンジン Zipage を開発した。大規模な数学的推論タスクにおいて、Zipage は Full KV 推論エンジンの性能の約 95%を達成しつつ、2.1$ imes$ 以上の高速化を提供する。

分野:	分散・並列・クラスタ計算（cs.DC）; 人工知能（cs.AI）
次の形式で引用:	arXiv:2603.08743 [cs.DC]
	(このバージョンの場合は arXiv:2603.08743v1 [cs.DC])
	https://doi.org/10.48550/arXiv.2603.08743 詳しく学ぶにはここにフォーカス DataCite 経由で発行された arXiv DOI

投稿履歴

発信元: Mengqi Liao [メールを表示]
[v1] 2026年3月1日 14:01:36 UTC（1,146 KB）

全文リンク:

論文へのアクセス:

Mengqi Liao およびほか 8 名の著者による論文「Zipage: Compressed PagedAttention による LLM 推論のための高い要求同時実行数の維持」の PDF を表示

PDF を表示
HTML（実験的）
TeX ソース

ライセンスを表示

現在の閲覧コンテキスト:

cs.DC

< prev | next >

新着 | 最近 | 2026-03

次の形式で閲覧：

cs
cs.AI

参考文献と引用

BibTeX引用をエクスポート読み込み中...

BibTeX形式の引用

データ提供元：

ブックマーク

書誌ツール

書誌および引用ツール

書誌エクスプローラー切り替え

書誌エクスプローラー (エクスプローラーとは？)

Connected Papers 切り替え

Connected Papers (Connected Papers とは？)

Litmaps 切り替え

Litmaps (Litmaps とは？)

scite.ai 切り替え

scite スマート引用 (スマート引用とは？)

コード、データ、メディア

この論文に関連付けられたコード、データ、メディア

alphaXiv 切り替え

alphaXiv (alphaXiv とは？)

コードへのリンク切り替え

論文向け CatalyzeX コード検索 (CatalyzeX とは？)

DagsHub トグル

DagsHub (DagsHub とは？)

GotitPub トグル

Gotit.pub (GotitPub とは？)

Huggingface トグル

Hugging Face (Huggingface とは？)

コードへのリンクトグル

Papers with Code (Papers with Code とは？)

ScienceCast トグル

ScienceCast (ScienceCast とは？)

デモ

Replicate トグル

Replicate (Replicate とは？)

Spaces トグル

Hugging Face Spaces (Spaces とは？)

Spaces トグル

TXYZ.AI (TXYZ.AI とは？)

レコメンダーと検索ツール

Influence Flower へのリンク

Influence Flower (Influence Flower とは？)

Core レコメンダートグル

CORE レコメンダー (CORE とは？)

著者
掲載先
所属機関
トピック

arXivLabs について

arXivLabs：コミュニティの協力者と取り組む実験的プロジェクト

arXivLabs は、協力者が当社のウェブサイト上で新しい arXiv の機能を直接開発し、共有できるようにするためのフレームワークです。

arXivLabs に取り組む個人および組織の双方が、公開性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、これを尊重しています。arXiv はこれらの価値観にコミットしており、それらを遵守するパートナーとのみ連携します。

arXiv のコミュニティに価値を加えるプロジェクトのアイデアはありますか？ arXivLabs についてさらに詳しく。

この論文のどの著者が推奨（エンダース）していますか？ | Disable MathJax（MathJaxを無効にする）（MathJaxとは？）

Foundry Tools とは

Azure OpenAI Service ドキュメント

今すぐ会員登録（無料）

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」