専用GPU不要で98倍速のLLMルーティング: Flash Attention、プロンプト圧縮、ほぼストリーミング処理による vLLM セマンティックルーター

arXiv cs.CL / 2026/3/16

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、専用GPUを必要とせず、vLLMセマンティックルーターの総合速度を98倍向上させ、GPUフットプリントを800 MB未満に抑える3段階の最適化を提案しています。
ステージ1: ROCm上のONNX Runtime向けのカスタム CK Flash Attention 演算子は、アテンションのメモリ使用量を O(n^2) から O(n) に削減し、エンドツーエンド遅延を 4,918 ms から 127 ms に低減。これにより 8K～32K トークンのコンテキストを可能にします。
ステージ2: 古典的な NLP プロンプト圧縮（TextRank、位置重み付け、TF-IDF、新規性スコア付与）により、入力を約512トークンに圧縮。元のプロンプト長に関係なくレイテンシとメモリをほぼ一定に保つ（127 ms から 62 ms）
ステージ3: 適応チャンク化とゼロコピーJSONによるほぼストリーミング処理は、シリアライズのオーバーヘッドを排除し、エンドツーエンド遅延を 62 ms から 50 ms に低減。16Kトークン能力を備えた総合的なルーティング遅延を約50 msとします。

要旨: LLMリクエストを安全性分類、ドメインルーティング、PII検出のために介在させるシステムレベルのルーターは、迅速で運用上軽量でなければならない。各リクエストに最小限の遅延を追加しつつ、専用のGPUを必要としないこと――LLM推論自体により高価なリソースを使う方が望ましいためである。ルーターが vLLM 提供インスタンスと同じ GPU 上に共置されると、標準的なアテンションの $O(n^2)$ メモリは長文コンテキストの分類（8K～32K トークン）を不可能にする。8K トークンの場合、3つの同時分類器だけでアテンションマスクに約 4.5GB を要し、vLLM が残すメモリを大きく超える。私たちは、AMD Instinct MI300X 上でベンチマークした vLLM Semantic Router の 3段階の最適化を提示し、遅延とメモリの問題の双方を解決する。 mph{Stage~1}: ROCm 上の ONNX Runtime 向けのカスタム CK Flash Attention 演算子によりアテンションメモリを $O(n^2)$ から $O(n)$ に、エンドツーエンド（E2E）レイテンシを 4{,}918 ms から 127 ms（f{38.7 $imes$ }）へ低減し、SDPA の OOM が発生する場所で 8K--32K トークンを可能にする。 mph{Stage~2}: 古典的な NLP プロンプト圧縮（TextRank、位置ウェイト付け、TF-IDF、および新規性スコアリング）により、ニューラル推論なしで全入力を約 512 トークンへ圧縮し、元のプロンプト長にかかわらず待機時間と GPU メモリの上限を一定に抑える（E2E 127→62 ms、f{2.0 $imes$ }）。 mph{Stage~3}: 適応的チャンク化とゼロコピー JSON によるほぼストリーミングの本文処理がシリアライズのオーバーヘッドを排除（E2E 62→50 ms、f{1.2 $imes$ }）。累計で: f{98 $imes$ } の改善（4{,}918 ms から 50 ms）、16K トークン・ルーティングを 108 ms で実現し、総ルーター GPU フットプリントを 800 MB 未満に抑える――LLM 提供と同一 GPU を共有し、専用のアクセラレータを不要にするのに十分である。 Stage~1 は AMD ROCm を対象とする（NVIDIA GPU には既に cuDNN 経由の FlashAttention がある）； Stage~2 および Stage~3 はハードウェア非依存。