Ragged Paged Attention:TPU向け高性能・柔軟なLLM推論カーネル
arXiv cs.AI / 2026/4/20
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 本論文では、動的で「ragged」な実行パターンが多いサービング環境で、TPU上でLLM推論を効率化するためのTPU向けアテンションカーネル「Ragged Paged Attention(RPA)」を提案しています。
- RPAは、raggedメモリに対する効率的な動的スライシングを可能にするきめ細かなタイル化、KVキャッシュ更新とアテンション計算を融合する独自のソフトウェアパイプライン、デコード/プレフィル/混在ワークロード向けに専用カーネルを生成するコンパイル戦略によって性能と柔軟性を高めています。
- Llama 3 8BをTPU7xで評価した結果、デコード時に最大86%のメモリ帯域利用率(MBU)、プレフィル時に73%のモデルFLOPs利用率(MFU)を達成しています。
- RPAはPallasとMosaicで実装され、vLLMおよびSGLangにおいてTPUバックエンドの主要実装として統合されており、TPU推論カーネル設計の実運用レベルの基盤と実践的な知見を提供することを目指しています。



