AdaMeZO：モーメントを保持しないLLM微調整向けAdamスタイルのゼロ次最適化

arXiv cs.LG / 2026/5/4

📰 ニュースModels & Research

共有:

要点

本論文では、フォワードパスのみで行うLLM微調整向けに、GPUメモリ使用量の削減を目的としたAdaMeZOを提案している。
MeZOが損失地形に鈍感で収束が遅くなり得るのに対し、AdaMeZOはモーメントをメモリに保持せずに第1・第2モーメントの推定を用いて、曲率を考慮した探索を行う。
理論解析と広範な実験により、AdaMeZOはMeZOより高い性能を示し、必要なフォワードパス数を最大70%削減できることが示されている。
最適化軌道の可視化から、AdaMeZOが多様な損失地形に適応できることが裏付けられている。

要旨: LLMの微調整はさまざまな専用の下流タスクに必要ですが、古典的なバックプロパゲーションに基づく微調整手法は大量のGPUメモリを必要とします。そこで、順伝播のみを用いてLLMを微調整する最近の手法であるMeZOは、損失地形に無頓着であることによる収束の遅さと引き換えに、GPU要件を大幅に削減します。Adamのような標準的な解法は、1次および2次のモーメントを推定してそれらをメモリに保存し、曲率が低い次元へ（その逆の場合も同様に）モデルを導くことで損失地形を探索します。しかし、Adamをそのまま適用すると、メモリ要件が3倍になるためMeZOの利点が相殺されてしまいます。これを踏まえ、本研究では、メモリ上でモーメントを維持することなく、Adamスタイルの1次および2次モーメント推定を活用する、ゼロ次（zeroth-order）の最適化手法AdaMeZOを提案します。AdaMeZOに関する理論的解析を提示し、さらに広範な実験によってその妥当性を裏付けます。実験結果は、AdaMeZOがMeZOを上回り得ること、また最大で順伝播回数を $70\%$ まで削減し得ることを示しています。軌跡の可視化により、AdaMeZOが多様な損失地形に適応できることが確認されます。

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

Anthropic News

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

日経XTECH

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

The Verge

CLMAフレームテスト

Dev.to

AIエージェントのガバナンスと責任：それらの問いに答えようとして作ったもの

Dev.to

AdaMeZO：モーメントを保持しないLLM微調整向けAdamスタイルのゼロ次最適化

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

AIエージェントのガバナンスと責任：それらの問いに答えようとして作ったもの

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍 東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

AIエージェントのガバナンスと責任：それらの問いに答えようとして作ったもの

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」