Abstract
スケーリング則はモデル品質と計算予算(FLOPs)を結びつけますが、実務者が直面するのは計算予算ではなくウォールクロック時間の制約です。本研究では、コンシューマーGPU(RTX 4090)上で、5分から24時間までの固定時間予算のもとでの最適なモデル規模を調べます。パラメータ数50M〜1031Mにまたがる70回超の実行から、次のことが分かりました: (1)〜各時間予算において、U字型の曲線が現れます。小さすぎるモデルは過学習し、大きすぎるモデルは学習不足(アンダートレイン)になります; (2)〜最適モデル規模は N^* \propto t^{0.60} に従い、Chinchillaの N^* \propto C^{0.50} よりも\emph{速く}成長します。さらに、
\alpha = 0.60 \pm 0.07 は、感度分析を行ったすべてのケースで計算最適(compute-optimal)を一貫して上回ることが頑健に示されます; (3)〜\emph{二重のU字型メカニズム}: 短い予算におけるU字曲線は計算ボトルネックに由来し、一方で長い予算におけるU字曲線はデータボトルネック(過学習)に由来します。そして、中間の領域ではU字曲線が一時的に消失します。これらの知見は、コンシューマー機材で学習する研究者にとって直ちに重要な意味を持ちます。すなわち、拘束条件になるのはFLOPsではなくウォールクロック時間です。本研究では、すべてのコード、ログ、および70回超の実験設定を公開します。