FrugalPrompt: トークンアトリビューションによる大規模言語モデルの文脈オーバーヘッド削減
arXiv cs.CL / 2026/3/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、意味的に重要なトークンのみを保持することでLLMのプロンプトにおける文脈長を削減し、コストとレイテンシを低減する FrugalPrompt を提案する。
- GlobEnc と DecompX の2つの最先端のトークンアトリビューション手法を用いて、各トークンに顕在性スコアを割り当て、上位 k% のトークンを保持して疎なプロンプトを作成する。
- 理論的安定性を確立し、4つのNLPタスクを横断した実証結果を示して、保持トークンの割合と性能のトレードオフを分析する。
- 発見は非対称的な性能パターンと潜在的なタスク汚染効果を示唆する。
- 本研究は、パフォーマンスと効率のトレードオフにおけるLLMの挙動をよりニュアンスを持って理解する一助となり、文脈のスパース性に耐えるタスクと過剰な文脈を必要とするタスクとの境界を描くものである。
要旨: 人間のコミュニケーションは、簡潔さと推論的プラグマティクスに大きく依存しており、疎で短信のような話し言葉からも聴き手が豊かな意味を正しく再構成できる。対照的に、LLMs はその卓越した性能の多くを広範な入力文脈に依存しており、しかしこの冗長性は金銭的コスト、炭素排出量、推論時のレイテンシを押し上げる。これらのオーバーヘッドは、典型的なプロンプトに含まれる冗長で低効用なトークンから生じ、通常はトークンのごく一部だけが大半の意味的ウェイトを担う。前述の認知心理言語学的過程に触発され、我々は FrugalPrompt を導入してこの非効率を解消する。LLMs の新規プロンプト圧縮フレームワークで、最も意味的に重要なトークンのみを保持する。最先端の 2 つのトークンアトリビューション手法、GlobEnc と DecompX を活用し、入力系列の各トークンに顕在性スコアを割り当て、上位 k% のトークンを保持するようにランク付けして、疎化された節約プロンプトを得る。我々は本アプローチの理論的安定性を確立し、4つのNLPタスクを対象とした強力な実証結果を提供して、保持トークンの割合と性能のトレードオフを検討する。保持設定を横断した実験結果は非対称的な性能パターンを示し、潜在的なタスク汚染効果を示唆する。我々は、本研究が性能と効率のトレードオフにおける LLM の挙動をよりニュアンスをもって理解する一助となり、文脈のスパース性に耐えるタスクと過剰な文脈を必要とするタスクとの境界を描くものだと主張する。