大規模言語モデルの事前学習におけるオプティマイザ状態の量子化を理解する: 状態の陳腐化のダイナミクスと状態リセットの有効性

arXiv cs.LG / 2026/3/18

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

低精度の EMA におけるオプティマイザ状態の量子化を調査し、そのような量子化が更新を同じ値へ写像させ、状態を実質的に停滞させる可能性があることを示す。
本研究は一ステップの停滞確率の予測モデルを開発し、初期化後に停滞が時間とともにどのように蓄積するかを説明する。
低精度下でオプティマイザ状態のリセットが有効となる理由について機構的な説明を提供する。量子化された EMA が陳腐化した場合、リセットによって応答性を回復できる。
リセット周期を選択するための理論に基づく手法を導出し、リセットの最適なタイミングを重視する。
制御されたシミュレーションおよび LLM の事前学習における実験は、適切なリセットスケジュールが低精度ストレージによって失われた性能を回復し、メモリ使用量を大幅に削減することを示している。

Abstract

量子化された最適化器状態は、メモリ効率の高い大規模事前学習の重要な要素となりつつあるが、得られる最適化器のダイナミクスはまだ部分的にしか理解されていない。低精度の指数移動平均（EMA）オプティマイザ状態を研究し、量子化が多くの名目上の更新を同じ格納値へ丸めて戻すことで、状態は実質的に老化し、名目上の減衰が示唆する以上に適応を遅らせる可能性があることを示す。次に、初期化後にどのように停止が蓄積していくかを特徴づける、1ステップの停止確率を推定する単純な予測モデルを開発する。この観点は、低精度でなぜオプティマイザ状態のリセットが有効になるのかの機械的な説明を提供する。量子化されたEMAが実質的に老化すると、リセットすることで一時的に応答性を回復できる。この考え方に動機づけられて、役に立つリセット周期を選ぶための理論に基づく簡単な手法を導出し、低精度ではリセットが役立つかどうかだけでなく、いつ適用すべきかが重要な問題であることを示す。制御されたシミュレーションおよびLLM事前学習における実験は、適切なリセットスケジュールが低精度の状態保存によって失われた性能を回復しつつ、オプティマイザ状態のメモリを大幅に削減することを示している。