PoC: パフォーマンス予測を用いた大規模言語モデルのパフォーマンス指向コンテキスト圧縮

arXiv cs.CL / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

PoCは、圧縮比を決定することに焦点を当てるのではなく、ユーザーが定義するパフォーマンスの下限を満たすことを優先。これにより、より信頼性が高く予測可能なLLMのコンテキスト圧縮の意思決定を実現します。
このアプローチは、軽量なパフォーマンス予測モデルを用いて、パフォーマンス制約を満たす最も厳しい圧縮比を自動的に特定し、その後、市販の圧縮ツールを適用します。
著者らは、単純な文脈非依存予測器と、より洗練された文脈依存予測器を比較し、後者の方が予測誤差を低く抑え、QA（質問応答）および要約タスクで全体的な性能が向上することを発見しました。
提案手法は、LLMsに対するコンテキスト圧縮のより信頼性が高く、効率的で、パフォーマンスを意識したデプロイメントを約束し、推論コストの削減が見込まれます。

要旨: 文脈圧縮は、文脈を短縮することによって大規模言語モデル（LLM）の推論コストの増大を緩和できる一方で、ターゲットの圧縮比や長さを指定する従来の手法は予測不能な性能低下を招き、信頼性の高いデプロイを妨げている。私たちは、性能閾値を圧縮比の代わりに開発者が指定する「Performance-oriented Context Compression（PoC）」へとパラダイムシフトを提案する。PoCは、この制約を満たす最も高い圧縮比を自動的に見つけ出し、既製の圧縮器を制御する前にそれを適用する軽量な性能予測子を用いる。私たちは、シンプルな文脈非依存予測子と、入力の固有の圧縮可能性を考慮するより洗練された文脈依存予測子の2つの予測子バリアントを設計・比較する。質問応答と要約の両方のベンチマークにおいて、文脈依存予測子は一貫して文脈非依存予測子より性能予測誤差が小さく、結果として得られる文脈依存PoCは総合的な性能で優れている。私たちの研究は、LLMの文脈圧縮をより信頼性が高く、効率的で、性能を意識したデプロイメントへの道を開く。」} access_token: null} <| end_of_text |> {