GoogleがTurboQuantを導入:LLMのキー・バリュー(KV)キャッシュメモリを6倍削減し、精度損失ゼロで最大8倍の高速化を実現する新しい圧縮アルゴリズム

MarkTechPost / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Googleの研究チームは、長いコンテキストでの推論中に使用されるLLMのキー・バリュー(KV)キャッシュを圧縮することを目的とした、データ非依存(data-oblivious)の量子化フレームワーク「TurboQuant」を発表しました。
  • この手法は、KVキャッシュのサイズを約6倍削減することで、HBMとSRAM間のメモリ通信のボトルネックを狙い撃ちします。
  • TurboQuantは、量子化における一般的なトレードオフに対処しつつ、精度損失ゼロを維持しながら推論で最大8倍の速度向上をもたらすと報告されています。
  • この取り組みは、KVキャッシュ圧縮の近似最適(near-optimal)であるとして位置づけられており、ハードウェア制約のもとでLLMをより長いコンテキストへ効率的にスケールすることを可能にする可能性があります。