実運用におけるプロンプト圧縮：高速なLLM推論のためのレイテンシ、レート順守、品質の測定

arXiv cs.CL / 2026/4/6

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

本論文は、RAG/IR環境における圧縮オーバーヘッドとデコード待ち時間（レイテンシ）のトレードオフに焦点を当て、より高速なLLM推論のためのプロンプト圧縮に関する大規模で体系的な調査を提示している。
オープンソースのLLMを用いた数千回の実行、30,000件のクエリ、3種類のGPUクラスにより、圧縮ステップとデコードステップそれぞれについて、エンドツーエンドのレイテンシ、レート順守、品質、メモリ使用量を個別に測定する。
LLMLinguaは、プロンプト長、圧縮率、利用可能なハードウェア容量が適切に一致している場合、最大18%のエンドツーエンド高速化を提供でき、要約、コード生成、質問応答のいずれにおいても出力品質は統計的に変わらない。
モデル／ハードウェア／プロンプトの条件が「動作ウィンドウ」の外にある場合、圧縮前処理時間が支配的になり、レイテンシの向上が相殺される。
有効なプロンプト圧縮は、データセンターのGPUから汎用カードへのワークロードのオフロードも可能にし、待ち時間の増加は約0.3秒程度で済む。また、解放されたプロファイラにより、特定のモデル—ハードウェア構成における損益分岐点（ブレークイーブン）を予測できる。

Abstract

IR に対する言語モデルの広範な導入、特に RAG システムにより、基盤となる LLM のレイテンシが重要なボトルネックになります。取得したパッセージの長いコンテキストが、巨大なプロンプトを生み出し、その結果、計算量が増加するためです。プロンプト圧縮は、下流タスクでの性能を維持しつつ入力プロンプトのサイズを削減することで、大規模言語モデルにおける推論を加速するための費用対効果が高く低レイテンシな方法として確立されています。しかし、それが有用であるかどうかは、生成中に追加される前処理時間が、より速いデコーディングによって相殺されるかどうかに依存します。本研究では、このトレードオフについて、初めての体系的かつ大規模な調査を行います。複数のオープンソース LLM と 3 つの GPU クラスに対して、数千回の実行と 30,000 件のクエリを用いて検証します。評価では、圧縮オーバーヘッドとデコーディングのレイテンシを切り分けると同時に、出力品質とメモリ使用量を追跡します。LLMLingua は、プロンプト長、圧縮率、そしてハードウェア能力が適切に一致している場合、最大でエンドツーエンドで 18% の速度向上を達成し、要約、コード生成、質問応答の各タスクにおいて応答品質は統計的に変化しません。しかし、この運用範囲の外では、圧縮ステップが支配的となり、得られる利益が打ち消されます。また、有効な圧縮によってメモリ使用量を十分に削減できることを示し、データセンターの GPU からコモディティなカードへ負荷をオフロードできる可能性があります。この場合のレイテンシ増加は 0.3s のみです。オープンソースのプロファイラは、モデルとハードウェアの組み合わせごとにレイテンシの損益分岐点を予測し、プロンプト圧縮が実世界で実際の利得をもたらすのはいつかについての実用的な指針を提供します。