ConMeZO：勾配なしファインチューニングのための適応的降下方向サンプリング

arXiv stat.ML / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、バックプロパゲーションを不要にしてメモリ負荷を抑えつつ、大規模言語モデルのファインチューニングを行うための微分なし（ゼロ次）最適化手法 ConMeZO を提案する。
ConMeZO は、高次元のパラメータ空間で一様ランダムに降下方向を探索する代わりに、運動量（モメンタム）推定の周りに中心を持つ「コーン」の範囲内で降下方向を適応的にサンプリングし、収束を加速する。
理論解析により、ConMeZO が最悪ケースの収束率において MeZO と同等であることを示す。
自然言語タスクでの実験では、ConMeZO はゼロ次手法の低メモリ特性を維持しつつ、MeZO より最大 2 倍高速であることを報告している。

要旨: ゼロ次（導関数なし）最適化（MeZO）は、バックプロパゲーションに伴うメモリオーバーヘッドを取り除けるため、大規模言語モデル（LLM）の微調整にとって魅力的な戦略である。しかし、10億規模のLLMの高次元パラメータ空間において降下方向を探索する際に、次元の呪い（curse of dimensionality）が本質的に作用するため、収束が遅い。我々は、適応的な方向サンプリングによって収束を加速する新しいゼロ次最適化手法 ConMeZO を提案する。ConMeZO は、方向を一様ランダムに引く代わりに、運動量（モメンタム）の推定値を中心とした円錐（コーン）の中にサンプリングを制限する。これにより、真の勾配がより存在する可能性が高い方向に探索を集中させ、高次元による影響を低減する。さらに、ConMeZO は MeZO と同じ最悪の場合の収束率を達成することを証明する。実験的には、自然言語タスクで LLM を微調整する際、ConMeZO はゼロ次手法の低メモリフットプリントを維持しつつ、MeZO より最大で 2 倍高速である。