大規模言語モデル(LLM)のスケーリング則は伝統的に、事前学習損失のような代理指標に注目してきましたが、下流タスクの性能を予測することは信頼できないと考えられてきました。本論文は、この見解に挑戦し、学習バジェットからベンチマーク性能のスケーリングを直接モデル化する枠組みを提案します。我々は、トークン数とパラメータ数の比が固定されていれば、複数の一般的な下流タスクにおける「ログ精度」のスケーリング挙動を、単純なべき乗則が正確に記述できることを見出しました。これらの結果は、直接的なアプローチが、従来提案されていた二段階の手続きよりも外挿(推定)において優れていることを示しています…
大規模言語モデル学習における下流指標のスケーリング特性を再検討する
Apple Machine Learning Journal / 2026/3/26
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模言語モデルの学習中に下流評価指標がどのようにスケールするのかを再検討し、それらの学習の進捗や計算量/データ規模との関係をより適切に特徴づけることを目指している。
- 下流指標の改善が予測可能なスケーリング則に従うかどうか、またそれらの性質がどのような条件下で変化したり破綻したりし得るかを分析する。
- 本研究は、中間結果から下流性能を予測し、学習ランを解釈することへの示唆に焦点を当てる。
- 著者らは、LLMの開発やチューニングにおいて、より信頼性の高い評価実践やスケーリング期待を導くことを意図した知見を提示する。
この記事の続きは原文サイトでお読みいただけます。
原文を読む →