大規模言語モデルの観点からデータ混合を再考する
arXiv cs.CL / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、データ混合(ドメインのサンプリングと重み付け)がLLM学習にとって重要であり、不適切な戦略は汎化性能を目に見えて損なう可能性があると主張する。
- 「ドメイン」をどのように定義すべきか、人間とモデルがドメインを一貫して認識するのか、またドメインの重み付けが汎化にどのように影響するのかといった未解決の問題を扱う。
- 著者らは、勾配ダイナミクスとドメイン分布を結びつける理論的枠組みを提示し、ドメインが学習挙動にどのように影響するかを説明する。
- その分析に基づき、DoGraphはデータスケジューリングをグラフに制約された再重み付け/最適化問題として捉える。
- 複数のスケールにわたるGPT-2の派生モデルに関する実験により、DoGraphは既存手法と比較して一貫して競争力のある性能を示す。



