GoogleのTurboQuantはメモリを節約するが、DRAMの価格地獄からは救ってくれない
チョコレート・ファクトリーの圧縮技術が、より安いAI推論への道を開く——ただし手頃になったメモリの話ではない
GoogleがTurboQuantを発表したとき、それは、モデル提供に必要なメモリ量を大幅に削減すると約束するAIデータ圧縮技術でした。多くの人が、昨年から価格が3倍になっているメモリ不足の問題を解決する助けになるのではと期待しました。……が、そうはなりませんでした。
TurboQuantは、あなたが期待している“救世主”ではありません。とはいえ、背景にある技術自体はモデル開発者や推論提供事業者にとって重要な含意があるため、より詳しく見る価値はあります。
TurboQuantって結局なに?
Googleの研究者が最近のブログ投稿で詳述したところによると、TurboQuantは本質的には、生成AIで使われるデータを高い精度から低い精度へ圧縮する手法で、一般に量子化(quantization)と呼ばれるアプローチです。
研究者によれば、TurboQuantには推論時のメモリ消費を少なくとも6倍削減できる可能性があるとのこと。これは、DRAMとNANDの価格が史上最高値を記録しているいま、かなり大胆な主張です。
ただし、ほとんどの量子化手法と違って、TurboQuantはモデルそのものを縮小しません。代わりに、LLMの推論中に文脈を維持するために使われるキー・バリュー(KV)キャッシュを保存するのに必要なメモリ量を減らすことを狙っています。
要するに、KVキャッシュはモデルの“短期記憶”のようなものです。たとえばチャットセッションでは、KVキャッシュがモデルにとって会話の内容を追跡する仕組みになります。
厄介なのは、これらのKVキャッシュがすぐに積み上がりやすく、モデルそのものよりも多くのメモリを消費することがよくある点です。
通常、こうしたKVキャッシュは16ビット精度で保存されます。もし、保存に使うビット数を8ビット、あるいは4ビットまで減らせるなら、必要なメモリ量を2倍から4倍の範囲で削減できることになります。
返却形式: {"translated": "翻訳されたHTML"}TurboQuantが確かにKVキャッシュの量子化に注目を集めましたが、根本的な考え方自体は新しいものではありません。実際、推論エンジンがこれらの理由からKVキャッシュをFP8で保存するのは、かなり一般的です。
しかし、この種の量子化はただではありません。精度を下げると、キー値を格納するためのビット数が減り、その結果メモリも少なくて済みます。これらの量子化手法は、独自のパフォーマンス上のオーバーヘッドも生みがちです。
TurboQuantの革新がまさにここにあります。Googleは、3.5ビットだけで、BF16と同等に近い品質を達成できると主張しつつ、厄介なオーバーヘッドも抑えています。そして4ビットでは、要求において何が重要か/重要でないかを判断するために使われる注意(attention)のロジット計算において、H100で最大8倍の速度向上が見込めるとしています。
研究者たちはそれで止まりませんでした。検証では、品質への影響を最小限に抑えながら、KVキャッシュを2.5ビットまで圧縮できることを見いだしました。ここから、主張されている6倍のメモリ削減が生まれたのだと考えられます。
どうやって動くのか
TurboQuantがこの偉業を実現できるのは、2つの数学的アプローチを組み合わせているからです。Quantized Johnson-Lindenstrauss(QJL)とPolarQuantです。
PolarQuantは、KVキャッシュのベクトル(大きさと方向という、高次元の数学的な表現に過ぎません)を、直交座標ではなく極座標を用いる円形の格子へと写像することで動きます。
Googleのブログ投稿では、「『東に3ブロック、北に4ブロック進む』を『全体で5ブロック進み、37度の角度で進む』に置き換えるのと同等です」と説明しています。
このアプローチにより、ベクトルの大きさと方向は、その半径と角度として表されるようになります。Googleによれば、各ベクトルが共通の基準点を共有するようになるため、データ正規化に伴うメモリ上のオーバーヘッドが解消されるということです。
PolarQuantに加えて、GoogleはQJLも用いて、最初のフェーズで生じうる誤差を修正し、モデルが要求に対して「何が重要か/重要でないか」を判断するために使用する注意スコアの精度を維持します。
その結果、これらのベクトルはメモリの一部を使って保存できるようになります。しかもこの技術はKVキャッシュに限定されません。Googleによると、検索エンジンが使うベクトルデータベースにも影響を及ぼす可能性があるとのことです。
- OpenAI、世界がそれらを吹き飛ばす中「とにかく作るために」1220億ドルを獲得
- Raspberry Pi、売上増を受けて半導体に傾斜—特に米国と中国
- Armはエージェント型AIには新しい種類のCPUが必要だと言う。IntelのDC責任者は納得していない
- メモリメーカーの株価は下落中。一部のRAM価格も落ち着く。Googleのせいにするのは得策ではない
TurboQuantはメモリ混乱から私たちを救わないかもしれない理由
圧縮率が6:1という主張であれば、ウォール街の多くの人が、TurboQuantの導入によってメモリメーカーの下落の流れが加速していることにつなげて考えても不思議はありません。
とはいえ、この技術はAI推論クラスタをより効率化し、その結果運用コストを下げる可能性は高いものの、これらのKVキャッシュを保存するために使われるNANDフラッシュやDRAMの需要を抑えることは難しいでしょう。
1年前、DeepSeek R1のようなオープンウェイトモデルでは、コンテキストウィンドウが64,000〜256,000トークンの範囲でした。今日では、コンテキストウィンドウが100万トークンを超えるオープンモデルを見つけることも珍しくありません。
TurboQuantによって、推論提供者がより少ないメモリでやりくりできるようになったり、より大きなコンテキストウィンドウのモデルを提供できるようになったりするかもしれません。コードアシスタントやOpenClawのようなエージェント型フレームワークが、より大きなコンテキストウィンドウへの需要を後押ししていることを考えると、後者のほうが、2つのうちではより起こりそうだと私たちは見ています。
トレンドフォースの業界ウォッチャーも同意するようです。今週初めに公表されたレポートで同社は、TurboQuantが、需要を抑えるのではなく、それ以上のメモリ需要を押し上げる長いコンテキスト(ロングコンテキスト)用途への需要を呼び起こすだろうと予測しています。®
関連記事
より絞り込んだ話題
- AIOps
- Android
- アプリストア
- Chrome
- Chromium
- DeepSeek
- 災害復旧
- Gemini
- Google Brain
- Google Cloud Platform
- Google I/O
- Google Nest
- Google Project Zero
- GPT-3
- GPT-4
- G Suite
- Kubernetes
- 大規模言語モデル
- マシンラーニング
- MCubed
- ニューラルネットワーク
- NLP
- Open Compute Project
- Pixel
- Privacy Sandbox
- PUE
- リトリーバル拡張生成
- ソフトウェア定義データセンター
- スター・ウォーズ
- Tavis Ormandy
- テンソル処理ユニット
- TOPS
さらに詳しく
さらに詳しく
より詳しい話題
- AIOps
- Android
- アプリストア
- Chrome
- Chromium
- DeepSeek
- 災害復旧
- Gemini
- Google Brain
- Google Cloud Platform
- Google I/O
- Google Nest
- Google Project Zero
- GPT-3
- GPT-4
- G Suite
- Kubernetes
- 大規模言語モデル
- 機械学習
- MCubed
- ニューラルネットワーク
- NLP
- Open Compute Project
- ピクセル
- プライバシー・サンドボックス
- PUE
- 検索拡張生成
- ソフトウェア定義データセンター
- スター・ウォーズ
- Tavis Ormandy
- テンソル処理装置
- TOPS




