Zipage: 圧縮PagedAttentionによるLLM推論での高リクエスト同時実行性の維持

arXiv cs.AI / 2026/3/11

Developer Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、トークン単位のKVキャッシュ削除とPagedAttentionを組み合わせた新手法である圧縮PagedAttentionを提案し、LLMデコーディング時のKVキャッシュのメモリボトルネックを解決します。
  • 圧縮PagedAttentionを基盤とした高同時実行性LLM推論エンジンZipageは、プレフィックスキャッシュと非同期圧縮をサポートし、推論タスクを最適化します。
  • 大規模数学推論ベンチマークにおいて、ZipageはフルKV推論エンジンの性能の約95%を達成しつつ、2.1倍以上の高速化を実現し、リクエストの同時実行性を大幅に向上させています。
  • 提案するスケジューリング戦略とメモリ最適化技術により、Zipageは高い同時実行性とメモリ制約が重要な産業用途において実用的かつ効率的です。
  • この革新は推論時のLLM推論効率向上を直接的に狙い、生成系LLMのよりスケーラブルかつ高速なサービス展開を可能にします。

計算機科学 > 分散・並列・クラスタ計算

arXiv:2603.08743 (cs)
[2026年3月1日に投稿]

題名:Zipage: Compressed PagedAttention による LLM 推論のための高い要求同時実行数の維持

Mengqi Liao およびほか 8 名の著者による論文「Zipage: Compressed PagedAttention による LLM 推論のための高い要求同時実行数の維持」の PDF を表示
PDF を表示 HTML(実験的)
要旨:推論が大規模言語モデル(LLM)の生成パラダイムになってきているが、デコード段階における KV キャッシュによるメモリ・ボトルネックは、高い同時実行サービスを制限する重要な要因となっている。既存の KV キャッシュ退避(eviction)手法はメモリ問題に対処しているものの、ほとんどは産業グレードのアプリケーションにとって実用的ではない。本論文では、Token 単位の KV キャッシュ退避と PagedAttention を組み合わせた手法である Compressed PagedAttention を提案する。さらに、包括的なスケジューリング戦略を提案し、Compressed PagedAttention に対する prefix caching と非同期圧縮をサポートする。これに基づき、高い同時実行性を実現する LLM 推論エンジン Zipage を開発した。大規模な数学的推論タスクにおいて、Zipage は Full KV 推論エンジンの性能の約 95%を達成しつつ、2.1$ imes$ 以上の高速化を提供する。
分野: 分散・並列・クラスタ計算(cs.DC); 人工知能(cs.AI)
次の形式で引用: arXiv:2603.08743 [cs.DC]
  (このバージョンの場合は arXiv:2603.08743v1 [cs.DC])
  https://doi.org/10.48550/arXiv.2603.08743
詳しく学ぶにはここにフォーカス
DataCite 経由で発行された arXiv DOI

投稿履歴

発信元: Mengqi Liao [メールを表示]
[v1] 2026年3月1日 14:01:36 UTC(1,146 KB)
全文リンク:

論文へのアクセス:

現在の閲覧コンテキスト:
cs.DC
< prev   |   next >
次の形式で閲覧:
BibTeX引用をエクスポート 読み込み中...

BibTeX形式の引用

×
データ提供元:

ブックマーク

BibSonomy ロゴ Reddit ロゴ
書誌ツール

書誌および引用ツール

書誌エクスプローラー切り替え
書誌エクスプローラー (エクスプローラーとは?)
Connected Papers 切り替え
Connected Papers (Connected Papers とは?)
Litmaps 切り替え
Litmaps (Litmaps とは?)
scite.ai 切り替え
scite スマート引用 (スマート引用とは?)
コード、データ、メディア

この論文に関連付けられたコード、データ、メディア

alphaXiv 切り替え
alphaXiv (alphaXiv とは?)
コードへのリンク切り替え
論文向け CatalyzeX コード検索 (CatalyzeX とは?)
DagsHub トグル
DagsHub (DagsHub とは?)
GotitPub トグル
Gotit.pub (GotitPub とは?)
Huggingface トグル
Hugging Face (Huggingface とは?)
コードへのリンク トグル
Papers with Code (Papers with Code とは?)
ScienceCast トグル
ScienceCast (ScienceCast とは?)
デモ

デモ

Replicate トグル
Replicate (Replicate とは?)
Spaces トグル
Hugging Face Spaces (Spaces とは?)
Spaces トグル
TXYZ.AI (TXYZ.AI とは?)
関連論文

レコメンダーと検索ツール

Influence Flower へのリンク
Influence Flower (Influence Flower とは?)
Core レコメンダー トグル
CORE レコメンダー (CORE とは?)
arXivLabs について

arXivLabs:コミュニティの協力者と取り組む実験的プロジェクト

arXivLabs は、協力者が当社のウェブサイト上で新しい arXiv の機能を直接開発し、共有できるようにするためのフレームワークです。

arXivLabs に取り組む個人および組織の双方が、公開性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、これを尊重しています。arXiv はこれらの価値観にコミットしており、それらを遵守するパートナーとのみ連携します。

arXiv のコミュニティに価値を加えるプロジェクトのアイデアはありますか? arXivLabs についてさらに詳しく