二時尺度の学習ダイナミクス: ニューラルネットワーク訓練の集団的視点

arXiv cs.LG / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、二時尺度の集団動力学に基づくニューラルネットワーク訓練の理論的フレームワークを提案する。高速な SGD に類似したパラメータ更新と、ハイパーパラメータの遅い選択–突然変異ダイナミクスを組み合わせる。
  • パラメータとハイパーパラメータの結合分布に対する大規模集団極限を証明し、強い時間スケール分離の下でハイパーパラメータ密度の選択–突然変異方程式を導出する。
  • 各固定されたハイパーパラメータに対して、速いパラメータダイナミクスはボルツマン–ギブス測度へと緩和し、遅い進化を駆動する実効的な適応度を生み出す。
  • このフレームワークは、集団ベースの学習を二階層最適化およびレプリケータ–突然変異モデルと結びつけ、集団平均が最も適したハイパーパラメータへと動く条件を明らかにし、探索と最適化のバランスを取る上でノイズの役割を強調する。

要旨: 集団ベースの学習パラダイムには、進化戦略、Population-Based Training (PBT)、および最近のモデル統合手法を含み、モデル内の高速な最適化と遅い集団レベルの適応を組み合わせます。経験的には成功を収めているにもかかわらず、結果として生じる集団的な訓練ダイナミクスの一般的な数学的記述は未完成のままです。私たちは、二時尺度の集団ダイナミクスに基づくニューラルネットワーク学習の理論的枠組みを導入します。私たちは、ニューラルネットワークの集団を、ネットワークパラメータがSGD/ランジュバン型の高速でノイズのある勾配更新によって進化し、ハイパーパラメータが遅い速度の選択-突然変異ダイナミクスを通じて進化する、相互作用するエージェント系としてモデル化します。パラメータとハイパーパラメータの結合分布に対する大規模集団極限を証明し、時間スケールの分離が強い場合には、ハイパーパラメータ密度の選択-突然変異方程式を導出します。各固定されたハイパーパラメータに対して、速いパラメータ動力学はボルツマン-ギブス測度へと緩和し、遅い進化に対して効果的な適応度を誘発します。平均化されたダイナミクスは、集団ベースの学習と階層的最適化および古典的なレプリケータ-ミューテータモデルとを結びつけ、集団平均が最も適したハイパーパラメータへと移動する条件を与え、最適化と探索のバランスを取る上でノイズと多様性の役割を明らかにします。数値実験は、大規模集団レジームと、縮小された二時尺度ダイナミクスの両方を示し、有効な適応度へアクセスできることが、閉形式または集団レベルの推定を通じて、集団レベルの更新を改善する可能性があることを示唆しています。

返却形式: {"translated": "翻訳されたHTML"}