実運用におけるプロンプト圧縮:高速なLLM推論のためのレイテンシ、レート順守、品質の測定
arXiv cs.CL / 2026/4/6
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 本論文は、RAG/IR環境における圧縮オーバーヘッドとデコード待ち時間(レイテンシ)のトレードオフに焦点を当て、より高速なLLM推論のためのプロンプト圧縮に関する大規模で体系的な調査を提示している。
- オープンソースのLLMを用いた数千回の実行、30,000件のクエリ、3種類のGPUクラスにより、圧縮ステップとデコードステップそれぞれについて、エンドツーエンドのレイテンシ、レート順守、品質、メモリ使用量を個別に測定する。
- LLMLinguaは、プロンプト長、圧縮率、利用可能なハードウェア容量が適切に一致している場合、最大18%のエンドツーエンド高速化を提供でき、要約、コード生成、質問応答のいずれにおいても出力品質は統計的に変わらない。
- モデル/ハードウェア/プロンプトの条件が「動作ウィンドウ」の外にある場合、圧縮前処理時間が支配的になり、レイテンシの向上が相殺される。
- 有効なプロンプト圧縮は、データセンターのGPUから汎用カードへのワークロードのオフロードも可能にし、待ち時間の増加は約0.3秒程度で済む。また、解放されたプロファイラにより、特定のモデル—ハードウェア構成における損益分岐点(ブレークイーブン)を予測できる。



