要約: トランスフォーマーを基盤とした大規模言語モデル(LLMs)は、自己回帰推論中の重複計算を避けるために KV(キーと値)キャッシュに依存します。 この仕組みは大幅に効率を向上させる一方で、キャッシュサイズは入力シーケンス長に対して線形に増加し、長い文脈のタスクにおいては速やかにボトルネックとなります。 既存の解決策は、重要性が低いと見なされるプロンプト KV を追い出すことでこの問題を緩和します。これは推定された重要度スコアに基づいてガイドされます。 特に、最近の研究は未来をのぞき見ることによって追い出しの品質を向上させることを提案しています。ここではドラフト生成器がターゲットモデルの真の応答を近似する代替の未来応答を生成し、この代理応答がキャッシュされた KV の重要性をより正確に見積もるために用いられます。 ただし、これらのアプローチは計算コストの高いドラフト生成に依存しており、顕著な前処理オーバーヘッドを生み出し、実世界のデプロイメントでの実用性を制限します。 この課題に対処するため、LookaheadKV を提案します。これは、明示的なドラフト生成を必要とせず、代理となる未来応答の利点を活用する軽量な追い出しフレームワークです。 LookaheadKV は、真の重要度スコアを高い精度で予測するよう訓練された、パラメータ効率の高いモジュールをトランスフォーマー層に追加します。 私たちの設計は、現在の安価なヒューリスティクスと同等のごく微小な実行時オーバーヘッドを確保しつつ、より高価な近似手法よりも優れた精度を達成します。 長文脈理解のベンチマークにおける広範な実験、さまざまなモデルに跨って、我々の手法は、さまざまな長文脈理解タスクで最近の競合ベースラインを上回るだけでなく、追い出しコストを最大で14.5倍も削減し、最初のトークンまでの時間を大幅に短縮することを示しています。 私たちのコードは https://github.com/SamsungLabs/LookaheadKV で入手可能です。
LookaheadKV: 生成なしで未来を垣間見ることにより高速かつ正確な KV キャッシュの追い出し
arXiv cs.LG / 2026/3/12
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- LookaheadKV は、明示的なドラフト生成を必要とせず、キーバリューキャッシュの重要性を予測する軽量な追い出しフレームワークを導入し、従来手法と比べてオーバーヘッドを削減します。
- このフレームワークは、ランタイムのオーバーヘッドをほとんど増やさずに高精度で真の重要度スコアを予測するよう訓練された、パラメータ効率の高いモジュールをトランスフォーマー層に追加します。
- 本手法は、よりコストのかかる近似よりも優れた精度を達成し、長文文脈ベンチマーク全体で追い出しコストを最大で14.5倍削減し、最初のトークンまでの時間を大幅に短縮します。
- 著者らは実用的な導入と実験を可能にするオープンソースコードを SamsungLabs/LookaheadKV で提供しています。


![[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜](/_next/image?url=https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F260885500%2Frectangle_large_type_2_f8df7c72d21f86c39d4096dd995f50d1.png%3Fwidth%3D219%26dpr%3D2%26frame%3D1%26format%3Djpg&w=3840&q=75)
