Google、LLMのメモリ消費を6分の1に削減する新技術「TurboQuant」発表

ITmedia AI+ / 2026/3/27

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

GoogleがLLM実行時のメモリ消費を6分の1に削減し得る圧縮手法「TurboQuant」の研究成果を発表した。
高次元ベクトルの圧縮により、推論時に頻繁に用いられるKVキャッシュを精度を犠牲にせず大幅に効率化するとしている。
TurboQuantは「PolarQuant」と「QJL」を組み合わせ、事前追加学習やファインチューニングなしでKVキャッシュを約3ビットまで圧縮可能と説明している。
ロングコンテキストで精度維持のままメモリ削減が確認され、NVIDIA H100上で最大8倍の計算速度向上が見られた。
Geminiのような大規模モデルのメモリ不足対策だけでなく、ベクトル検索の高速化にも寄与する可能性を示しており、ICLR 2026で発表予定としている。

　米Googleは3月24日（現地時間）、新たな圧縮手法「TurboQuant」に関する研究により、LLMを実行するために必要なメモリ量を6分の1に削減できる可能性があると発表した。

　この技術は、AIモデルが情報を処理する際に用いる高次元ベクトルデータのサイズを極限まで圧縮し、大規模AIや検索エンジンにおけるメモリのボトルネックを解消するものという。特に、LLMの推論時に頻繁に使用される情報を一時保存する「キーバリュー（KV）キャッシュ」の圧縮において、モデルの精度やパフォーマンスを犠牲にすることなく大幅な効率化を実現するとしている。

　TurboQuantは、データの構造を単純化して大部分の圧縮を行う「PolarQuant」と、そこから生じた微小な誤差を1ビットのデータで数学的に補正する「QJL」という2つの手法を効果的に組み合わせている。これにより、事前の追加学習やファインチューニングを行うことなく、KVキャッシュを実質的にわずか3ビットまで圧縮可能になる。

　実際のロングコンテキストテストでは、タスクの精度を完全に維持したままメモリサイズを6分の1以下に縮小できたほか、米NVIDIAの「H100」上での計算速度が最大8倍に向上するなど、顕著なパフォーマンス改善が確認された。

　この手法は、「Gemini」のような大規模モデルにおけるKVキャッシュのメモリ不足問題を解決する強力な手段となるだけでなく、膨大なデータベースからユーザーの意図や意味を読み取って類似情報を探す「ベクトル検索」の劇的な高速化にも貢献すると期待されている。

　Googleは、AIがさまざまな製品に統合されていく中で、こうした基礎的なデータ圧縮技術の重要性は今後ますます高まっていくとしている。なお、TurboQuantに関する一連の研究成果は、リオデジャネイロで4月23日から開催の国際会議「ICLR 2026」で発表する予定だ。

ソフトバンク子会社、インテルと協業　AI向け「次世代メモリ」開発　29年度中に実用化へ
ソフトバンクの子会社であるSAIMEMORYは、米Intelと、大容量・広帯域・低消費電力をうたう次世代メモリ技術「ZAM」（Z-Angle Memory）の開発で提携すると発表した。
Qualcomm、データセンター向けAI推論チップ市場に本格参入　「AI200」「AI250」発表
Qualcommは、データセンター向けAI推論チップ「AI200」と「AI250」を発表した。AI200は2026年に、AI250は2027年に利用可能になる予定。サウジアラビアのHumainが200MW規模での導入を表明している。
富士通、LLMの軽量化技術を発表　1ビット量子化でも約9割の精度を維持　3倍に高速化も
富士通は、大規模言語モデル（LLM）を軽量化・省電力化する技術「生成AI再構成技術」を開発したと発表した。
Apple、iPhone上でのLLM実行を可能にする手法の論文を発表
Appleは「LLM in a flash:Efficient Large Language Model Inference with Limited Memory」という論文を発表した。メモリ容量が限られた端末上でLLMを実行するための革新的な手法を編み出したとしている。

三菱電機のデジタル戦略を率いる武田氏、「現場データの背景理解が重要」

日経XTECH

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

日経XTECH

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

日経XTECH

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

人工知能とは何か？実際にはどのように動くのか？

Dev.to

Google、LLMのメモリ消費を6分の1に削減する新技術「TurboQuant」発表

要点

関連記事

関連リンク

関連記事

三菱電機のデジタル戦略を率いる武田氏、「現場データの背景理解が重要」

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

人工知能とは何か？実際にはどのように動くのか？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer