AI Navigate

学習率減衰なしの事前学習は監督付きファインチューニングを向上させる

arXiv cs.CL / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は大規模言語モデルの事前学習における学習率スケジューリングの役割を検討し、ウォームアップ後も減衰を行わず一定の学習率を維持する Warmup-Stable-Only (WSO) を提案する。
  • 1Bおよび8Bパラメータのモデルを用いた実験では、WSO が減衰ベースのスケジューラよりも SFT 後の下流性能を高めることを示し、事前学習時にそれらのスケジューラがより良い性能を示す場合があっても同様の傾向が確認された。
  • 結果は中間訓練段階および過剰訓練を含む訓練レジームでも一貫しており、損失面の分析により減衰スケジューラは鋭い極小値を生み出す一方、WSO はより平坦な極小値を保持することが示されている。
  • この知見はトレーニングおよびリリース戦略に実践的な指針を提供し、WSOを用いた事前学習は下流タスクへの適応性を高めると示唆される。

要旨: 学習率スケジューリングの役割を、大規模言語モデルの大規模事前学習において調査し、特に監督付きファインチューニング(SFT)後の下流パフォーマンスへの影響に焦点を当てます。減衰ベースの学習率スケジューラは、事前学習損失を最小化するために広く用いられています。しかし、その広範な使用にもかかわらず、これらのスケジューラがSFT後の性能にどのように影響するかは十分には検討されていません。本論文では、Warmup-Stable-Only(WSO)を検討します。WSOはウォームアップ後に減衰を行わず、一定の学習率を維持します。1Bおよび8Bパラメータのモデルを用いた実験を通じて、SFT後の性能の観点ではWSOが減衰ベースのスケジューラを一貫して上回ることを示します。たとえ事前学習後に減衰ベースのスケジューラがより良い性能を示す可能性があっても、SFT後の性能はWSOが上回る結果となります。結果は、訓練の中盤および過学習を含むさまざまなレジームにも当てはまります。損失地形の解析は、減衰ベースのスケジューラがモデルをより鋭い極小値へ導く一方、WSOはより平坦な極小値を維持し、適応性を支えることを示します。これらの発見は、学習率減衰を適用して事前学習の指標を改善することが、下流の適応性を妥協する可能性があることを示唆します。私たちの作業は、トレーニングとモデルリリース戦略に関する実践的なガイダンスも提供し、WSOを用いた事前学習モデルは下流タスクへの適応性を高めることを強調します。