学習率エンジニアリング:粗い単一パラメータから層ごとの進化へ

arXiv cs.AI / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は学習率スケジューリングの進化を5つの世代として整理し、SGDのグローバル固定率から、層と時間に応じて更新を調整する“共同層・時間”型へ発展してきた流れを示しています。
  • きめ細かなスケジューリングが必要になる動機として、転移学習における「不可能な三つ組」を説明しており、下位層は汎化知識を保つため小さな更新が必要で、上位層は新タスクに適応するため大きな更新が必要だと述べています。
  • 著者らは Discriminative Adaptive Layer Scaling(DALS)を提案し、位相適応コサインスケジューリング、深さに応じたGrokfast型勾配フィルタ、LARS風の信頼比を1つの最適化フレームワークに統合しています。
  • 合計18の学習率・オプティマイザ戦略(DALSの複数変種を含む)を、合成データ、CIFAR-10(from scratch)、RTE、TREC-6、IMDb(ファインチューニング)でベンチマークし、DALSが合成データで最高精度(98.0%)を達成、DALS-Fastは3エポックで90%に到達することを示しています。
  • データセット横断の分析では勝者が学習設定(レジーム)に依存し、事前学習表現がない“from-scratch”ではSTLR+Discriminative(ULMFiT)が壊滅的に失敗し得ること(例:TREC-6 from scratchで43.6%など)を明確にしています。