圧縮手法は重要:LLMプロンプト圧縮におけるベンチマーク依存の出力ダイナミクス
arXiv cs.CL / 2026/3/26
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、プロンプト圧縮は入力トークン削減だけで評価すべきではないと主張する。圧縮は、ベンチマーク依存の形で出力長や総推論コストを変え得るからである。
- 3つのベンチマークにまたがって、複数のプロバイダを用い、攻撃的な圧縮(r=0.3)下で合計5,400回のAPI呼び出しを行った結果、DeepSeekはMBPPで極端な出力拡大(56倍、指示文の生存確率が低い)を示す一方、HumanEvalではそれがはるかに小さく(5倍、指示文の生存確率が高い)なり、GPT-4o-miniは比較的安定していた。
- 著者らは、先行研究で相反する結果を説明するための構造的指標として指示文生存確率(Ψ)を導入し、プロバイダの同一性だけでなく、プロンプト構造や切り詰めの影響のほうが重要であることを示す。
- ベンチマークをまたいだより安全な評価を可能にするために、圧縮頑健性指数(CRI)を提案し、「圧縮の安全性」や効率性について、単一ベンチマークでの試験が誤解を招き得ると警告する。
- 併設のNVMLベースのエネルギー測定では、入力トークンの節約が実際のジュール(エネルギー)節約を過大に見積もり得ることが示唆され、導入に向けてベンチマークを多様に扱い、かつ構造を意識した圧縮方針が必要であることが動機づけられる。