連続セマンティック・キャッシュによる低コストLLMサービング

arXiv cs.LG / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ユーザーのクエリが有限の離散集合ではなく無限の連続埋め込み空間に存在する状況で、LLM応答のセマンティック・キャッシュを行うための厳密な理論的枠組みを提案しています。
  • 動的εネット離散化とKernel Ridge Regressionを組み合わせ、推定不確実性を定量化しつつ、意味的に近いクエリ近傍へ提供コストの部分的フィードバックを一般化できるようにします。
  • オフライン学習とオンライン適応型のキャッシュ手法をそれぞれ設計し、キャッシュ内容を切り替える際に発生するスイッチングコストも明示的に考慮しています。
  • オンライン手法は、最適な連続オラクルに対してサブリニアなレグレット(損失差)上界を達成することを証明し、実験でも連続最適に近い性能を示しつつ、計算負荷とスイッチングのオーバーヘッドを低減します。
  • 全体として、本研究は意味的キャッシュを不確実性を伴う連続クエリ空間でも実用化し、LLMの推論コストとレイテンシを削減することを目指しています。

要旨: 大規模言語モデル(LLM)の人気が高まるにつれて、意味的に類似した問い合わせを行うユーザが再利用できるように応答をキャッシュすることは、推論コストとレイテンシを削減するための重要な戦略になっています。既存のキャッシュフレームワークは、離散的な問い合わせの有限で既知の宇宙を仮定し、それらの提供コストと到着確率を学習することで、どの問い合わせの応答をキャッシュするかを決定することを提案してきました。しかし、LLMのユーザ群と問い合わせの集合が拡大するにつれて、このような仮定はますます成り立たなくなります。現実世界のLLM問い合わせは、無限の連続的な埋め込み空間に存在するからです。本論文では、不確実性の下での連続的な問い合わせ空間における意味的LLM応答キャッシングに関する、最初の厳密な理論的枠組みを確立します。離散最適化と連続表現空間とのギャップを埋めるために、動的なepsilon-ネット離散化とカーネル・リッジ回帰を組み合わせて導入します。この設計により、推定の不確実性を形式的に定量化し、連続的な意味的問い合わせ近傍におけるLLM問い合わせコストの部分的なフィードバックを一般化できるようになります。キャッシュされた応答を変更することで発生する切替コストを削減することに最適化した、オフライン学習アルゴリズムとオンライン適応アルゴリズムの両方を開発します。私たちは、オンラインアルゴリズムが、最適な連続オラクルに対して劣線形(sublinear)のリグレット上界を達成することを証明し、これにより既存の離散問い合わせモデルに対する上界へと帰着することを示します。大規模な実験評価により、提案枠組みが連続的な最適キャッシュをよく近似し、さらに既存手法と比べて計算コストと切替オーバーヘッドの両方を削減できることを実証します。