要旨: LLMの微調整はさまざまな専用の下流タスクに必要ですが、古典的なバックプロパゲーションに基づく微調整手法は大量のGPUメモリを必要とします。そこで、順伝播のみを用いてLLMを微調整する最近の手法であるMeZOは、損失地形に無頓着であることによる収束の遅さと引き換えに、GPU要件を大幅に削減します。Adamのような標準的な解法は、1次および2次のモーメントを推定してそれらをメモリに保存し、曲率が低い次元へ(その逆の場合も同様に)モデルを導くことで損失地形を探索します。しかし、Adamをそのまま適用すると、メモリ要件が3倍になるためMeZOの利点が相殺されてしまいます。これを踏まえ、本研究では、メモリ上でモーメントを維持することなく、Adamスタイルの1次および2次モーメント推定を活用する、ゼロ次(zeroth-order)の最適化手法AdaMeZOを提案します。AdaMeZOに関する理論的解析を提示し、さらに広範な実験によってその妥当性を裏付けます。実験結果は、AdaMeZOがMeZOを上回り得ること、また最大で順伝播回数を70\%まで削減し得ることを示しています。軌跡の可視化により、AdaMeZOが多様な損失地形に適応できることが確認されます。
AdaMeZO:モーメントを保持しないLLM微調整向けAdamスタイルのゼロ次最適化
arXiv cs.LG / 2026/5/4
📰 ニュースModels & Research
要点
- 本論文では、フォワードパスのみで行うLLM微調整向けに、GPUメモリ使用量の削減を目的としたAdaMeZOを提案している。
- MeZOが損失地形に鈍感で収束が遅くなり得るのに対し、AdaMeZOはモーメントをメモリに保持せずに第1・第2モーメントの推定を用いて、曲率を考慮した探索を行う。
- 理論解析と広範な実験により、AdaMeZOはMeZOより高い性能を示し、必要なフォワードパス数を最大70%削減できることが示されている。
- 最適化軌道の可視化から、AdaMeZOが多様な損失地形に適応できることが裏付けられている。



