大規模言語モデルの事前学習におけるデータ・ミキシング:サーベイと展望
arXiv cs.CL / 2026/4/21
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、異種のコーパスをドメイン単位でどのように混合するかが、現実的な計算資源とデータ予算の制約下で、LLMの事前学習効率と下流タスクでの汎化性能に大きく影響すると主張している。
- データ混合の最適化を確率シンプレックス上の二段階(バイレベル)問題として定式化し、既存手法がそれを実務的に扱える形に落とし込む方法を説明している。
- さらに、データ・ミキシング手法を「静的(static)」対「動的(dynamic)」に大別し、静的手法をルールベース/学習ベース、動的手法を適応型/外部ガイド型に分類する細かなタクソノミーを提示している。
- 各手法ファミリーについて代表的なアプローチを整理し、性能とコストのトレードオフの観点から強み・限界を分析しており、ドメイン間の転移性の弱さ、目的関数やモデル、検証セットの不整合、評価プロトコルやベンチマークの非標準化などの課題を横断的に指摘している。
- 最後に、より細かなドメイン分割、逆方向のデータ・ミキシング(inverse data mixing)、事前学習パイプラインを意識した設計など、今後の研究方向性を提案している。
関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる
Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA