ゼロ次最適化の学習ダイナミクス：カーネル視点

arXiv cs.LG / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、ゼロ次（ZO）最適化が一般に一次法よりもモデル次元に応じて遅くなるという既存理論と、実際にLLMの微調整でZO法が成功しているという経験的事実のギャップを扱っています。
ゼロ次SGD（ZO SGD）の1ステップにおける学習ダイナミクスを導出し、学習挙動を決める中核の量として実データに基づくニューラル・テンソル・カーネル（eNTK）が自然に現れることを示します。
ZOで得られるeNTKの要素は、ニューラル・タンジェント・ベクトルをランダムな低次元部分空間へ射影した内積に対応すると解釈しています。
Johnson–Lindenstraussの補題を用いて、ZOのeNTKがどれだけ忠実に近似されるかは、パラメータ次元全体よりも主に摂動（摂動回数）の数に支配されると主張します。
これにより、次元に依存しない近似誤差が得られることが、理論上の懸念にもかかわらずZO法がLLMの微調整へスケールする理由の理論的根拠になると結論づけています。

日経XTECH

Dev.to

Dev.to

MarkTechPost

MarkTechPost