要約:大規模言語モデル(LLM)における文脈窓の指数的な拡張は、長文の理解能力を開花させた一方で、推論遅延と情報活用に深刻なボトルネックを生み出しました。既存の圧縮手法は、過度なトークン刈り取りによる高い訓練コストや意味の断片化に悩まされることが多い。本論文では、訓練を要さない新規フレームワーク BEAVER を提案し、圧縮を線形なトークン削除から構造認識型の階層的選択へと移行させます。BEAVER は、デュアルパスプーリングを介して可変長の文脈を密なページレベルのテンソルにマッピングすることでハードウェアの並列性を最大化し、意味論的と語彙的なデュアルブランチ選択と文の平滑化を組み合わせたハイブリッドプランナーによって談話の整合性を保持します。長文文脈の4つのベンチマークにおける広範な評価は、BEAVER が LongLLMLingua のような最先端(SOTA)手法と同等の性能を達成することを示しています。特に RULER ベンチマークでは、BEAVER はベースラインが劣化する状況でもマルチニードル検索において高い忠実性を維持します。効率性については、BEAVER は 128k の文脈で待機時間を 26.4 倍短縮し、高スループットアプリケーション向けのスケーラブルな解決策を提供します。私たちのコードは https://cslikai.cn/BEAVER/ で入手可能です。
BEAVER: 訓練不要の階層的プロンプト圧縮法 — 構造を意識したページ選択による
arXiv cs.CL / 2026/3/23
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- BEAVER は、長文コンテキストを扱う大規模言語モデル(LLM)に対して、推論レイテンシを低減しつつ情報忠実度を維持するために、トークン剪定から構造を意識したページレベル選択へと移行する訓練不要の階層的プロンプト圧縮法を提案する。
- このアプローチは、可変長のコンテキストを高密度なページレベルのテンソルへマッピングする際、推論時のハードウェア並列性を最大化するためにデュアルパス・プーリングを用いる。
- ハイブリッドプランナーは、セマンティックとレキシカルのデュアルブランチ選択を組み合わせ、長文にわたる談話の一貫性を維持するために文の滑らかさを整える。
- 4つの長文コンテキストベンチマークにおける実証評価は、BEAVERが最先端手法(例:LongLLM Lingua)と同等の性能を達成し、128kのコンテキストサイズでレイテンシを26.4倍削減することを示しています。また、RULERベンチマークにおけるマルチニードル検索の忠実度も高いことが示されました。
- 著者は、指定されたURLでコードを公開しており、本手法の実用的な採用を可能にしています。




