メモリー業界揺るがすGoogleの新技術「TurboQuant」、簡素な仕組みが強みに

日経XTECH / 2026/4/7

💬 オピニオンDeveloper Stack & InfrastructureIndustry & Market MovesModels & Research

要点

  • Googleのデータ圧縮技術「TurboQuant」は、生成AIのKVキャッシュを効率化してメモリー負荷と計算コストを削減することを狙う。
  • TurboQuantは「ランダム回転行列で成分の偏りをならす」工程(PolarQuant)と「誤差を最小化する量子化」工程(QJL)という2段階のシンプルな構成を採用する。
  • KVキャッシュは長文処理でメモリーを圧迫しやすいが、TurboQuantの量子化により現実的なメモリーサイズでLLM推論を可能にする。
  • LongBenchでは、量子化なしと同等の性能を維持しつつ最大4.5倍以上の圧縮を達成したとされる。
  • TurboQuantへの注目が「メモリー需要の縮小」観測につながり、MicronやSandiskなど関連銘柄の株価が一時的に下落したという市場面の反応も報じられている。

 米Google(グーグル)のデータ圧縮技術「TurboQuant」が注目を集めている。生成AI(人工知能)に広く使われるメモリー「KVキャッシュ」を効率的に使えるようにするものだ。メモリーの需要が縮小するとの見方が市場に広がったことを背景に、米Micron Technology(マイクロン・テクノロジー)や米Sandisk(サンディスク)など、世界でメモリー関連銘柄の株価が一時急落した。TurboQuantの特徴やインパクトを、論文や識者の見方を基に探る。

 TurboQuantに関する論文「TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate」は2026年、AIのトップカンファレンス「ICLR(International Conference on Learning Representations)」に採択され、同年3月24日に技術ブログを公開。一気に話題を集めた。論文そのものはGoogle Researchなどの研究チームが2025年4月に発表したものだ。

Google Researchが公開したブログ記事が話題を集めた
Google Researchが公開したブログ記事が話題を集めた
(写真:日経クロステック)
[画像のクリックで拡大表示]

「KVキャッシュ」で計算時間を短縮し、「量子化」で効率化

 まず、KVキャッシュと量子化について整理しておこう。今日のほとんどの生成AIは、入力トークンの情報を「Attention(アテンション)機構」と呼ばれる仕組みで集約し、次トークンを予測する。KVキャッシュは、Attention機構で計算した「Key(トークンの目印)」と「Value(トークンから得られる情報)」のセットを保持するキャッシュメモリーだ。予測のたびに計算する必要がなくなるため、計算時間を短縮できる。

 ただし、大規模言語モデル(LLM)に長い文章を処理させようとすると、KVキャッシュのサイズが大きくなってメモリーを圧迫し、ボトルネックとなる恐れがある。そこでKVキャッシュを効率的に使うための研究が進められてきた。

 効率化手法の1つが、実数を別の値に置き換えて簡略化する「量子化」である。実数をビットで厳密に表現しようとすると、ビット数が無限に必要となる。これでは扱うのが難しいため、量子化によって値を丸め、有限数の区間に近似させるというものだ。結果、現実的なメモリーサイズでLLMの処理を可能にする。

アルゴリズムはシンプル

 TurboQuantはKVキャッシュを圧縮するため、(1)トークンを表すベクトルにランダムな回転行列をかける、(2)量子化の際の誤差を最小化する、というシンプルな2段階のアルゴリズムを採用している。

 (1)の処理は「PolarQuant」アルゴリズムと呼ばれる。ベクトルの各成分は異なる分布を持っている。各座標に載っている情報量には大小があり、成分ごとにスケーリングが必要となり、メモリーのオーバーヘッドが生じていた。

 この課題を解決できるのが、原点を中心にある行列を一定の角度で回転するという線形変換を表す「回転行列」だ。ベクトルにランダムな回転行列をかけて回転移動を実行すると、ベクトルの各成分の偏りが小さくなることが知られている。情報量がならされるため、成分ごとのスケーリングが不要になる。

ランダム回転を利用し、誤差を最小に

 量子化においては、ビット数を減らしつつ、誤差をなるべく小さくしたいというニーズがあった。ビット数が多いと、より正確に表現できる一方、計算コストは大きくなる。ビット数を減らすと、情報を近似するので誤差がどうしても大きくなるというトレードオフの関係にある。

 グーグルは「QJL(Quantized Johnson-Lindenstrauss)」と呼ばれる手法で誤差を最小化した。これが(2)のアルゴリズムだ。「Johnson-Lindenstrauss(JL)の補題」と呼ばれる、高次元のベクトルをランダムな射影によって距離を保ったまま低次元に写せる理論を応用している。

 (1)と(2)の処理によってメモリーのオーバーヘッドが減り、精度を落とさず、処理を高速化できるとうたっている。「LongBench」と呼ばれるベンチマークでは、KVキャッシュを量子化していないモデルと同等の性能を維持しつつ、 最大4.5倍以上圧縮したとしている。

ベンチマーク「LongBench」での実証結果。KVキャッシュを量子化していない状態(Full Cache)とTurboQuantを適用した状態を比較した。TurboQuantを使うとKVキャッシュは16ビットから3.5ビットに圧縮でき、かつ同等の性能を維持している
ベンチマーク「LongBench」での実証結果。KVキャッシュを量子化していない状態(Full Cache)とTurboQuantを適用した状態を比較した。TurboQuantを使うとKVキャッシュは16ビットから3.5ビットに圧縮でき、かつ同等の性能を維持している
(出所:Google Researchのブログ記事、⽇経クロステックが一部編集)
[画像のクリックで拡大表示]

次のページ

専門家はどう見る?

この記事は有料会員限定です