Google、LLMのメモリ消費を6分の1に削減する新技術「TurboQuant」発表

ITmedia AI+ / 2026/3/27

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • GoogleがLLM実行時のメモリ消費を6分の1に削減し得る圧縮手法「TurboQuant」の研究成果を発表した。
  • 高次元ベクトルの圧縮により、推論時に頻繁に用いられるKVキャッシュを精度を犠牲にせず大幅に効率化するとしている。
  • TurboQuantは「PolarQuant」と「QJL」を組み合わせ、事前追加学習やファインチューニングなしでKVキャッシュを約3ビットまで圧縮可能と説明している。
  • ロングコンテキストで精度維持のままメモリ削減が確認され、NVIDIA H100上で最大8倍の計算速度向上が見られた。
  • Geminiのような大規模モデルのメモリ不足対策だけでなく、ベクトル検索の高速化にも寄与する可能性を示しており、ICLR 2026で発表予定としている。

 米Googleは3月24日(現地時間)、新たな圧縮手法「TurboQuant」に関する研究により、LLMを実行するために必要なメモリ量を6分の1に削減できる可能性があると発表した。

 quant

 この技術は、AIモデルが情報を処理する際に用いる高次元ベクトルデータのサイズを極限まで圧縮し、大規模AIや検索エンジンにおけるメモリのボトルネックを解消するものという。特に、LLMの推論時に頻繁に使用される情報を一時保存する「キーバリュー(KV)キャッシュ」の圧縮において、モデルの精度やパフォーマンスを犠牲にすることなく大幅な効率化を実現するとしている。

 TurboQuantは、データの構造を単純化して大部分の圧縮を行う「PolarQuant」と、そこから生じた微小な誤差を1ビットのデータで数学的に補正する「QJL」という2つの手法を効果的に組み合わせている。これにより、事前の追加学習やファインチューニングを行うことなく、KVキャッシュを実質的にわずか3ビットまで圧縮可能になる。

 実際のロングコンテキストテストでは、タスクの精度を完全に維持したままメモリサイズを6分の1以下に縮小できたほか、米NVIDIAの「H100」上での計算速度が最大8倍に向上するなど、顕著なパフォーマンス改善が確認された。

 この手法は、「Gemini」のような大規模モデルにおけるKVキャッシュのメモリ不足問題を解決する強力な手段となるだけでなく、膨大なデータベースからユーザーの意図や意味を読み取って類似情報を探す「ベクトル検索」の劇的な高速化にも貢献すると期待されている。

 Googleは、AIがさまざまな製品に統合されていく中で、こうした基礎的なデータ圧縮技術の重要性は今後ますます高まっていくとしている。なお、TurboQuantに関する一連の研究成果は、リオデジャネイロで4月23日から開催の国際会議「ICLR 2026」で発表する予定だ。

関連記事

関連リンク

Copyright © ITmedia, Inc. All Rights Reserved.

続きを読むには、コメントの利用規約に同意し「アイティメディアID」および「ITmedia NEWS アンカーデスクマガジン」の登録が必要です