MegaTrain：単一GPUで100B+パラメータ級の大規模言語モデルをフル精度で学習する

Reddit r/artificial / 2026/4/8

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

MegaTrainはメモリ中心の学習システムであり、モデルパラメータとオプティマイザ状態をCPUホストメモリに格納することで、単一GPUを用いて100B+パラメータのLLMをフル精度（量子化ではない）で学習することを目標とする。
GPUを一時的な計算エンジンとして扱い、パラメータを層ごとにストリーミングしながら勾配を計算して、それをオフロードすることで、GPUに常駐するメモリ使用量を最小化する。
CPU–GPU帯域幅の制約に対処するため、複数のCUDAストリームを用いたパイプライン化・ダブルバッファリングの実行手法により、パラメータのプリフェッチ、計算、勾配のオフロードを重ね合わせる。
動的にバウンドされた重みを持つステートレスな層テンプレートを用いることで永続的な自動微分（autograd）グラフを回避し、グラフのメタデータに伴うオーバーヘッドを削減しつつ、柔軟なスケジューリングを可能にする。
ベンチマークでは、単一のNVIDIA H200（ホストメモリ1.5TB）で最大120Bパラメータの学習を報告している。また、14Bモデルに対してCPUオフロード付きのDeepSpeed ZeRO-3と比較して1.84×のスループット、単一のGH200で512kコンテキストを備えた7Bモデルの学習も報告している。

要旨: "私たちは、単一GPU上でフル精度により100B+パラメータ級の大規模言語モデルを効率的に学習する、メモリ中心型システムMegaTrainを提示します。従来のGPU中心型システムとは異なり、MegaTrainはパラメータとオプティマイザ状態をホストメモリ（CPUメモリ）に保存し、GPUを一時的な計算エンジンとして扱います。層ごとにパラメータをストリーミングで読み込み、計算した勾配を外部へオフロードすることで、永続的なデバイス状態を最小化します。CPU-GPU帯域幅のボトルネックに対処するため、2つの重要な最適化を採用します。1) 複数のCUDAストリームにわたって、パラメータのプリフェッチ、計算、勾配のオフロードをオーバーラップさせる、パイプライン化されたダブルバッファ方式の実行エンジンを導入し、GPUの連続実行を可能にします。2) 永続的なautogradグラフを、ステートレスな層テンプレートに置き換えます。ストリーミングで読み込まれる重みを動的にバインドすることで、永続的なグラフのメタデータを排除しつつ、スケジューリングの柔軟性を提供します。ホストメモリ1.5TBを搭載した単一のH200 GPUで、MegaTrainは最大120Bパラメータまでのモデルを確実に学習できます。また、14Bモデルを学習する際に、CPUオフロード付きDeepSpeed ZeRO-3の学習スループットを1.84倍達成します。さらにMegaTrainは、単一のGH200で512kトークンのコンテキストを持つ7Bモデルの学習も可能にします。"

提出者： /u/nickpsecurity
[リンク] [コメント]