圧縮手法は重要:LLMプロンプト圧縮におけるベンチマーク依存の出力ダイナミクス

arXiv cs.CL / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、プロンプト圧縮は入力トークン削減だけで評価すべきではないと主張する。圧縮は、ベンチマーク依存の形で出力長や総推論コストを変え得るからである。
  • 3つのベンチマークにまたがって、複数のプロバイダを用い、攻撃的な圧縮(r=0.3)下で合計5,400回のAPI呼び出しを行った結果、DeepSeekはMBPPで極端な出力拡大(56倍、指示文の生存確率が低い)を示す一方、HumanEvalではそれがはるかに小さく(5倍、指示文の生存確率が高い)なり、GPT-4o-miniは比較的安定していた。
  • 著者らは、先行研究で相反する結果を説明するための構造的指標として指示文生存確率(Ψ)を導入し、プロバイダの同一性だけでなく、プロンプト構造や切り詰めの影響のほうが重要であることを示す。
  • ベンチマークをまたいだより安全な評価を可能にするために、圧縮頑健性指数(CRI)を提案し、「圧縮の安全性」や効率性について、単一ベンチマークでの試験が誤解を招き得ると警告する。
  • 併設のNVMLベースのエネルギー測定では、入力トークンの節約が実際のジュール(エネルギー)節約を過大に見積もり得ることが示唆され、導入に向けてベンチマークを多様に扱い、かつ構造を意識した圧縮方針が必要であることが動機づけられる。

Abstract

プロンプト圧縮はしばしば入力トークンの削減によって評価されますが、実際の導入における影響は、圧縮が出力長と総推論コストにどのように変化を与えるかに依存します。本研究では、攻撃的な圧縮下でのベンチマーク依存の出力ダイナミクスに関する、制御された複製(レプリケーション)と拡張の調査を提示します。これには、3つのベンチマークと複数のプロバイダにまたがる計5,400回のAPI呼び出しが含まれます。先行研究で相反する観察結果を説明するために、切り詰めの後にタスクにとって重要なプロンプトの区間が残るかどうかを捉える構造的指標として、命令生存確率(Psi)を形式化します。その結果、強いベンチマーク効果が示されます。r=0.3のとき、DeepSeekはMBPPで深刻な出力の膨張を示します(56倍、Psi 約0.15)が、一方でHumanEvalでは膨張が大幅に抑えられます(5倍、Psi 約0.72)。これに対してGPT-4o-miniは、ベンチマーク間で比較的安定しています。これにより、以前報告された「極端な爆発(explosion)」と「低い複製効果」の見かけ上の食い違いは、プロバイダの同一性だけではなく、プロンプト構造が主要な調整因子(モデレータ)であることを特定することで統合されます。複数ベンチマークにまたがる評価のための圧縮頑健性指数(CRI)を導入し、単一ベンチマークに基づく評価が、圧縮の安全性や効率性について誤解を招く結論を生み得ることを示します。エネルギーに関する主張に文脈を与えるために、レンタルしたRunPod GPUからの付随的な直接NVML計測も組み込み、トークン節約がジュール節約を過大に見積もる可能性があることを示します。これらの知見は、信頼でき、かつエネルギーを意識したLLM導入のために、ベンチマークに多様性を持たせた試験と、構造を考慮した圧縮ポリシーを動機づけるものです。