データ制約下の学習における処方的(プレスクリプティブ)スケーリング則

arXiv cs.LG / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、高品質データが不足している一方で学習計算資源が相対的に豊富な状況を扱い、最適な計算配分よりも限られたデータから最大の価値を引き出すことが主課題になる点を指摘しています。
  • よく使われるChinchillaスケーリング則は学習トークンがすべてユニークであることを前提としているため、反復(リピート)が起きるデータ制約下では指針として不十分になり得ると批判しています。
  • 著者らは、トークン反復に伴う過剰損失を単純な加法的オーバーフィット罰則としてモデル化して新たなスケーリング則を導出し、モデル挙動をよく説明できることを示しています。
  • 新しいスケーリング則は、計算最適な配分に関して質的に異なる助言を与え、ある閾値を超えると反復を増やすほど逆効果になり、計算はモデルの容量(キャパシティ)増強に振り向けるべきだと結論づけています。
  • 1パラメータの形でオーバーフィットを単一係数に分離できるため、学習設定間の比較が容易になり、さらに強いウェイトデケイ(λ=1.0)がこの係数を約70%低減することから、データ制約下で最適なウェイトデケイが標準より桁違いに大きい理由をスケーリング則の観点から説明できると述べています。

概要: 学習計算(トレーニング計算リソース)は、質の高いデータの利用可能性をますます上回るようになってきています。これにより、中心的な課題は最適な計算配分の割り当てから、限られたデータから最大限の価値を引き出すことへと移っています。広く採用されているChinchillaのスケーリング則は、すべての学習トークンが一意であることを前提としています。これにより、データが制約される状況での事前学習(pretraining)の意思決定を導く能力が制限されます。私たちは、反復(repetition)による過剰損失を、単純な加法的な過学習(overfitting)ペナルティでモデル化し、そのモデルがモデル挙動を正確に記述することを見出します。私たちのスケーリング則は、計算最適な配分(compute-optimal allocation)に関する定性的に新しい助言を与えます。ある点を超えると、さらなる反復は逆効果になり、計算はモデルの容量(capacity)により有効に使われます。私たちは、スケーリング則が推奨する構成に従うことで、データが制約された状況における性能が向上することを示します。最後に、パラメータが1つのこの形式は過学習を単一の係数に分離するため、学習構成間での直接比較が可能になります。ケーススタディとして、強いウェイト減衰(\lambda=1.0)がこの係数を約70%低下させることを示します。これは、データが制約された状況における最適なウェイト減衰は、標準的な実践よりも1桁大きい、という最近の知見に対して、スケーリング則による説明を与えるものです。