AI Navigate

ほぼ最適な学習率スケジュールはどのような形をしているのか?

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、パラメータ化されたファミリ内でほぼ最適な学習率スケジュールの形状を見つける探索手順を設計し、公平な比較を可能にするために基礎学習率を切り出します。
  • それは、線形回帰、CIFAR-10の画像分類、Wikitext103の言語モデリングという3つのワークロードで手法を評価し、実践的にほぼ最適なスケジュールを見つけていると報告します。
  • 結果は、ウォームアップと減衰が良いスケジュールの堅牢な特徴である一方、一般的に用いられるスケジュールファミリはこれらのワークロードには最適ではないことを示しています。
  • ウェイト減衰は最適なスケジュール形状に強い影響を及ぼす可能性があり、ハイパーパラメータ間の重要な相互作用を明らかにします。
  • 著者らはこれらの成果が、深層ニューラルネットワークの訓練におけるほぼ最適なスケジュール形状について、現時点で最も包括的な発見のいくつかを成すと主張しています。
要旨: ニューラルネットワークの訓練における基本的で未解決の問いは、与えられたワークロードに対して最適な学習率スケジュールの形状とは何かです。学習率スケジュールの選択は訓練プロセスの成功または失敗の重要な要因ですが、ウォームアップと減衰のような何らかの要素がある以外には、良いスケジュール形状を作るものについての合意はありません。これに答えるため、パラメータ化されたスケジュールファミリ内で最良の形を見つける探索手順を設計しました。私たちのアプローチは、スケジュール形状を基礎学習率から切り離すことで、そうすれば跨スケジュール比較が過度に支配されるのを避けられます。私たちはこの探索手順を、3つのワークロード:線形回帰、CIFAR-10の画像分類、Wikitext103の小規模言語モデリングでさまざまなスケジュールファミリに適用しました。私たちは、探索手順が一般にほぼ最適なスケジュールを見つけることを示しました。私たちは、ウォームアップと減衰が良いスケジュールの頑健な特徴であること、そして一般に用いられるスケジュールファミリがこれらのワークロードには最適ではないことを見つけました。最後に、形状探索の出力が他の最適化ハイパーパラメータにどう依存するかを調べ、ウェイト減衰が最適なスケジュール形状に強い影響を及ぼす可能性があることを見出しました。これまでの知識の範囲で、私たちの結果は深層ニューラルネットワークの訓練におけるほぼ最適なスケジュール形状に関する最も包括的な成果のひとつを示しています。