要旨: 大規模言語モデル(LLM)の急速な普及は、環境上の逆説を生み出しています。すなわち、気候課題の解決に役立ちうるまさにその技術が、いまや世界的な炭素排出における重要な寄与因子になりつつあるのです。本研究では、3つのプロバイダ(OpenAI GPT-4o-mini、Anthropic Claude-3.5-Sonnet、DeepSeek-Chat)にまたがる28,421件の成功したAPI試行(28,428件予定)において、5つのベンチマーク(HumanEval、MBPP、GSM8K、MATH、MMLU)と4つの圧縮率(r が {1.0, 0.7, 0.5, 0.3})を対象に、プロンプト圧縮が推論のエネルギー効率を改善するかどうかを検証します。エネルギーは、ローカルでの直接測定により較正したトークンベースの代理指標で推定し、品質はベンチマークの合格率で追跡します。圧縮は大きな品質低下をもたらしました(全体の合格率がベースラインで26.0%であるのに対し、r=0.7で1.5%)が、エネルギー挙動はプロバイダに強く依存しました。DeepSeekは圧縮下で出力が拡張し(r=0.3で21~798トークン)、エネルギーが最大+2,140%増加することに対応していました。一方でGPT-4o-miniは、r=0.5での低下を含むなど、混在した効果を示しました。これらの結果は、入力トークンの削減だけでは、本番環境の推論における信頼できるエネルギー最適化戦略にならないことを示しています。評価した設定においては、モデル選択と出力長の制御のほうが、プロンプト圧縮よりも一貫したエネルギーと品質のトレードオフを提供しました。
LLM推論における圧縮の逆説:プロバイダ依存のプロンプト圧縮によるエネルギー効果
arXiv cs.CL / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究では、3つのLLMプロバイダ(OpenAI GPT-4o-mini、Anthropic Claude-3.5-Sonnet、DeepSeek-Chat)に対して、複数のベンチマークと圧縮率を用い、28,421件のAPIトライアルでプロンプト圧縮を検証する。
- 圧縮によって重大な品質劣化が起こり得ることを見出しており、ベースラインでの合格率26.0%が、r=0.7では1.5%まで低下する。
- エネルギーへの影響はプロバイダに強く依存する。DeepSeekでは、大きな圧縮下で出力が大幅に膨張し(r=0.3で21→798トークン)、最大+2,140%に達するエネルギー増加を引き起こす。
- 一方、GPT-4o-miniはエネルギー面で結果が混在し(ある比率ではエネルギーの低減も含む)、入力トークンの削減だけでは推論効率の向上につながるとは限らないことを示している。
- 著者らは、評価した設定の範囲では、圧縮ではなく、モデル選択や出力長の制御によってより良いエネルギー–品質のトレードオフが得られると結論づけている。