暗黙のバイアスが学習曲線におけるニューラルなスケーリング則を生む:パーセプトロンから深層ネットワークまで

arXiv stat.ML / 2026/5/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、学習の収束後だけでなくトレーニング中の学習曲線全体にわたる性能変化を記述する新しい「力学的(dynamical)」スケーリング則を報告しています。
  • 2つのノルムに基づく複雑さの尺度が学習曲線の進み方を支配することを特定し、それらを組み合わせることで収束時の従来のテスト誤差スケーリングが再現されると示しています。
  • 結果は、CNN、ResNet、Vision Transformerといった複数のモデル系と、MNIST、CIFAR-10、CIFAR-100の各データセットで一貫して確認されています。
  • 単層パーセプトロン(ロジスティック損失)を用いた解析的な裏付けも提示され、勾配ベース学習が生む暗黙のバイアスによって新しいスケーリングが説明できるとしています。
  • 全体として、学習ダイナミクス、スケーリングの規則性、そして暗黙のバイアスという観点から解釈可能性に関わる基盤を結びつけています。

Abstract

ディープラーニングにおけるスケーリング則――モデル性能を資源の増大に結び付ける経験的なべき乗則――は、アーキテクチャ、データセット、課題をまたいで、単純かつ印象的な規則性として現れてきました。これらの法則は特に、データ量またはモデル規模を増やすことの利得を定量化し、機械学習における解釈可能性の基礎を示唆するため、最先端モデルの設計指針として極めて重要です。しかし、多くの研究は学習の終盤における漸近的振る舞いに焦点を当てています。本研究では、学習全体のダイナミクスを解析することで、より豊かな状況を描きます。すなわち、異なるノルムに基づく複雑さの尺度の関数として性能がどのように進化するかを支配する、2つの新しい \textit{動的} スケーリング則を同定します。これらを組み合わせることで、収束時のテスト誤差に対する既知のスケーリング則を回復できます。得られた知見は、MNIST、CIFAR-10、CIFAR-100 で学習した CNN、ResNet、および Vision Transformer のいずれでも一貫しています。さらに、ロジスティック損失で学習した単層パーセプトロンを用いた解析的裏付けを提示し、そこで新しい動的スケーリング則を導出し、それらを勾配ベース学習によって誘起される暗黙のバイアスによって説明します。