大規模言語モデルの事前学習におけるオプティマイザ状態の量子化を理解する: 状態の陳腐化のダイナミクスと状態リセットの有効性
arXiv cs.LG / 2026/3/18
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 低精度の EMA におけるオプティマイザ状態の量子化を調査し、そのような量子化が更新を同じ値へ写像させ、状態を実質的に停滞させる可能性があることを示す。
- 本研究は一ステップの停滞確率の予測モデルを開発し、初期化後に停滞が時間とともにどのように蓄積するかを説明する。
- 低精度下でオプティマイザ状態のリセットが有効となる理由について機構的な説明を提供する。量子化された EMA が陳腐化した場合、リセットによって応答性を回復できる。
- リセット周期を選択するための理論に基づく手法を導出し、リセットの最適なタイミングを重視する。
- 制御されたシミュレーションおよび LLM の事前学習における実験は、適切なリセットスケジュールが低精度ストレージによって失われた性能を回復し、メモリ使用量を大幅に削減することを示している。




