大規模言語モデルの事前学習におけるデータ・ミキシング:サーベイと展望

arXiv cs.CL / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、異種のコーパスをドメイン単位でどのように混合するかが、現実的な計算資源とデータ予算の制約下で、LLMの事前学習効率と下流タスクでの汎化性能に大きく影響すると主張している。
  • データ混合の最適化を確率シンプレックス上の二段階(バイレベル)問題として定式化し、既存手法がそれを実務的に扱える形に落とし込む方法を説明している。
  • さらに、データ・ミキシング手法を「静的(static)」対「動的(dynamic)」に大別し、静的手法をルールベース/学習ベース、動的手法を適応型/外部ガイド型に分類する細かなタクソノミーを提示している。
  • 各手法ファミリーについて代表的なアプローチを整理し、性能とコストのトレードオフの観点から強み・限界を分析しており、ドメイン間の転移性の弱さ、目的関数やモデル、検証セットの不整合、評価プロトコルやベンチマークの非標準化などの課題を横断的に指摘している。
  • 最後に、より細かなドメイン分割、逆方向のデータ・ミキシング(inverse data mixing)、事前学習パイプラインを意識した設計など、今後の研究方向性を提案している。

Abstract

大規模言語モデル(LLM)は、巨大で多様なコーパスに対する事前学習に依存しており、学習データの構成が、現実的な計算量およびデータ予算の制約下での学習効率と下流タスクでの汎化能力に決定的な影響を与えます。サンプルレベルでのデータ選択とは異なり、データ混合は、ドメインレベルのサンプリング重みを最適化して、限られた予算をより効果的に配分します。近年、LLMの事前学習に対して原理に基づくデータ混合手法を提案する研究が増えてきましたが、文献は依然として分断されており、専用の体系的サーベイが欠けています。本論文は、LLM事前学習のためのデータ混合に関する包括的なレビューを提供します。まず、データ混合の最適化を確率単体上の二重レベル問題として形式化し、事前学習パイプラインにおけるデータ混合の役割を明確化し、既存手法がこの定式化を実際に扱えるようにする方法を簡単に説明します。次に、既存手法を2つの次元に沿って整理するきめ細かな分類法を導入します。静的混合は、ルールベースと学習ベースにさらに分類されます。一方、動的混合は、適応型および外部ガイダンス型のファミリにまとめられます。各クラスについて、代表的なアプローチを要約し、性能とコストのトレードオフの観点から、それらの強みと限界を分析します。この分析を踏まえ、ドメイン間での移転可能性の制限、最適化目標、モデル、検証セットにまたがる課題、標準化されていない評価プロトコルとベンチマーク、ならびに学習ベース手法における性能向上とコスト制御との間に内在する緊張関係といった、方法横断的な課題を強調します。最後に、より細かなドメイン分割と逆向きデータ混合、ならびにパイプラインを意識した設計など、いくつかの探索的な方向性を概説し、今後の研究に向けた概念的および方法論的な洞察を提供することを目指します。