InfoLaw：品質加重ミクスチャデータと反復を用いた大規模言語モデルの情報スケーリング則

arXiv cs.CL / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLM事前学習で高品質データを単純に強く重み付けすると、データが限られた状況や過学習（オーバートレーニング）では、反復が増えて性能が低下し得ると主張しています。
標準的なスケーリング則に頼るのではなく、消費トークン数・モデル規模・データ混合比（ミクスチャ重み）・反復を用いて損失を予測する、データに着目したInfoLawという枠組みを提案します。
この手法は事前学習を情報の蓄積として捉え、データ品質が情報密度を左右し、反復がスケール依存の逓減的リターンを生むとモデル化します。
様々なデータセット規模、品質分布、反復レベルでの実験により、InfoLawが未知のデータ配合やスケールアップ実行（最大7B・425Bトークン）での損失を低誤差で予測でき、過学習レベルに対しても外挿が頑健であることが示されます。
さらに、計算予算が異なる状況でもデータ配合と反復の選択による損失変化をより確実に見積もれることで、スケーリング時の最適なデータレシピ選定を効率化することを目指しています。