https://arxiv.org/abs/2604.05091
要旨: "私たちは、単一GPU上でフル精度により100B+パラメータ級の大規模言語モデルを効率的に学習する、メモリ中心型システムMegaTrainを提示します。従来のGPU中心型システムとは異なり、MegaTrainはパラメータとオプティマイザ状態をホストメモリ(CPUメモリ)に保存し、GPUを一時的な計算エンジンとして扱います。層ごとにパラメータをストリーミングで読み込み、計算した勾配を外部へオフロードすることで、永続的なデバイス状態を最小化します。CPU-GPU帯域幅のボトルネックに対処するため、2つの重要な最適化を採用します。1) 複数のCUDAストリームにわたって、パラメータのプリフェッチ、計算、勾配のオフロードをオーバーラップさせる、パイプライン化されたダブルバッファ方式の実行エンジンを導入し、GPUの連続実行を可能にします。2) 永続的なautogradグラフを、ステートレスな層テンプレートに置き換えます。ストリーミングで読み込まれる重みを動的にバインドすることで、永続的なグラフのメタデータを排除しつつ、スケジューリングの柔軟性を提供します。ホストメモリ1.5TBを搭載した単一のH200 GPUで、MegaTrainは最大120Bパラメータまでのモデルを確実に学習できます。また、14Bモデルを学習する際に、CPUオフロード付きDeepSpeed ZeRO-3の学習スループットを1.84倍達成します。さらにMegaTrainは、単一のGH200で512kトークンのコンテキストを持つ7Bモデルの学習も可能にします。"
[リンク] [コメント]



