要旨: クオンタイズ(量子化)は、大規模言語モデル(LLM)の学習に必要なGPUメモリ要件を削減するための重要な手法です。しかし、現行のアプローチは4ビット活性化と8ビット勾配に対しては効果が不十分で、簡単に収束の遅さや精度の低下を引き起こします。これに対処するために、2つの新しい技術を組み込んだAGoQを提案します。1) 層を考慮した活性化量子化アルゴリズムで、層の種類やパイプライン段に基づいてさまざまな層の活性化に適切なビット幅を割り当て、4ビット活性化の保存に近い状態を実現し、2) 8ビットの勾配ストレージと、精度を保持する8ビットAll-Reduce通信を用いることで、メモリ使用量を削減しつつ通信時間を短縮する勾配量子化アルゴリズムです。GPUクラスター2つ(最大64GPU)において、異なるサイズのLLMを用いた大規模な実験を行いました。その結果、提案手法AGoQは、最先端の学習システムであるMegatron-LM(ZeROあり/なし)、COAT、DeepSpeedと比較して、メモリを最大52
%削減し、学習速度を最大1.34 imes向上させることが示されました。対象は、8Bから32BのLLaMAモデルです。さらに、LLaMAアーキテクチャにおいて、事前学習での収束損失を達成し、下流タスクでは同等の精度を実現します。
AGoQ:4-bitアクティベーションと8-bit勾配量子化によるLLMのメモリ効率化分散学習
arXiv cs.CL / 2026/5/4
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、LLMの分散学習におけるGPUメモリ使用量を削減することを目的としたAGoQを提案し、特に約4-bitのアクティベーションと8-bitの勾配を扱う際の有効性を重視しています。
- AGoQは層ごとのアクティベーション量子化により、層の種類やパイプライン段階に応じて適切なビット幅を割り当て、学習品質を維持する仕組みを採用しています。
- 勾配については、8-bit勾配の格納に加えて、精度を損なわない8-bit All-Reduce通信を用いることで、メモリ削減だけでなく通信時間の短縮も狙います。
- 2つのGPUクラスター(最大64GPU)上で、複数サイズのLLMに対して実験した結果、AGoQは従来の学習システム(Megatron-LM、COAT、DeepSpeedなど)に比べてメモリを最大52%削減し、学習速度を最大1.34倍向上させたと報告しています。
- さらに、事前学習での収束性を維持し、LLaMA系アーキテクチャ(8B〜32B)において下流タスクで同等の精度を達成できたとされています。



