安定性の縁でのゼロ次最適化

arXiv cs.LG / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、二点推定器に基づくゼロ次(ZO)最適化手法について、平均二乗の線形安定性のための明示的なステップサイズ条件を導出する。
  • 重要な対比として、第一階(FO)法の安定性が主に最大ヘッセ行列固有値に依存するのに対し、ZO法の安定性はヘッセ行列の全スペクトルに左右されることを示す。
  • 実務的なニューラルネット学習ではヘッセ固有スペクトルの全計算が難しいため、著者らは最大固有値とヘッセ行列のトレースのみに基づく扱いやすい安定性境界も提示する。
  • 実験では、フルバッチZO手法(ZO-GD、ZO-GDM、ZO-Adam)が複数のディープラーニング課題にわたって、予測された「安定性の縁」付近で一貫して安定化することが観察される。
  • これらの結果は、ZO法特有の暗黙的な正則化効果を示唆しており、大きなステップサイズはヘッセ行列のトレースを主に正則化する一方、FO法は上位固有値を正則化する点が対照的である。

Abstract

勾配が利用できない、または非常に高コストである場合(ブラックボックス学習や、大規模モデルのメモリ効率のよい微調整など)に、ゼロ次(ZO)法は広く用いられている。しかし、深層学習におけるそれらの最適化ダイナミクスは、いまだ十分に調べられていない。本研究では、標準的な2点推定器に基づくZO法の一族について、(平均二乗の)線形安定性を正確に捉える明示的なステップサイズ条件を提示する。今回の特徴づけにより、一次(FO)法との間に鋭い対照があることが明らかになった。すなわち、FOの安定性は最大のヘッセ行列固有値のみによって決まるのに対し、ZO法の平均二乗安定性はヘッセ行列の全スペクトルに依存する。全ヘッセ行列スペクトルの計算は実際のニューラルネットワーク学習では不可能であるため、さらに、最大の固有値とヘッセ行列のトレースのみに依存する、扱いやすい安定性の上界も導出する。実験的に、全バッチのZO法が安定性の境界(エッジ)付近で動作することを見出した。すなわち、ZO-GD、ZO-GDM、ZO-Adamはいずれも、深層学習のさまざまな学習問題において、予測された安定性境界の近傍で一貫して安定化する。これらの結果は、ZO法に固有の暗黙の正則化効果を強調している。大きなステップサイズはヘッセ行列のトレースを主に正則化するのに対し、FO法では上位の固有値を正則化する。