要旨: ハイパーパラメータ転送は現代の大規模なトレーニングレシピの重要な要素となっています。既存の手法、muP のようなものは主にモデルサイズ間の転送に焦点を当てており、バッチサイズやトレーニングの時間幅を跨ぐ転送は、時間スケールの保持に関する洞察、二次代理、連続時間近似から得られる洞察に基づく経験的スケーリング規則に頼ることが多い。私たちは、LMO(Linear Minimization Oracle)に基づく手法の最近の収束境界の視点を通じて、現代の一階微分最適化手法のハイパーパラメータスケーリング法則を検討する。LMOは正規化された SGD、signSGD(Adam を近似)、および Muon を含むフレームワークである。最近の文献の境界を代理として扱い、異なる調整レジームにわたってそれらを最小化すると、反復回数やトークン予算の関数としての学習率、モーメント、バッチサイズの閉形式のべき乗法則スケジュールが得られる。モデルサイズを一定に保つという前提のもとで、私たちの分析は統一的かつ原理的な観点から文献の洞察と観察の大半を再現しており、将来の研究に向けた明確な指針が示されている。私たちの結果は、モーメントとバッチサイズのスケーリングの相互作用に特に注目しており、複数のスケーリング戦略で最適な性能が達成される可能性があることを示唆している。
現代の最適化理論を用いたハイパーパラメータのスケーリング則の導出
arXiv cs.LG / 2026/3/18
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、線形最小化オラクル(LMO)フレームワーク内の収束境界を分析することにより、正規化 SGD、signSGD、Muon などを含む現代の一階最適化アルゴリズムのハイパーパラメータスケーリング則を導出する。
- これらの境界を代理指標として扱い、学習率、モーメンタム、バッチサイズの、反復回数またはトークン予算の関数としての閉形式のべき乗則スケジュールを得る。
- モデルサイズを固定した状態で、解析は統一的な視点の下で文献の既知の知見を再現し、モーメンタムとバッチサイズのスケーリング間の相互作用を浮き彫りにする。
- 結果は、最適なパフォーマンスを達成するための複数の実行可能なスケーリング戦略を示唆し、今後の研究の方向性を概説する。