混合データから専門ドメインへの言語モデルの最適な分割

arXiv cs.CL / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 論文は、一般コーパス上で複数のモデルを独立に訓練する分割モデル訓練アプローチを導入し、スケーリング則を用いて事前学習とドメイン特化の継続的事前学習の最適な計算資源配分を決定する。
  • これは、サイズNのモデルの性能を、前訓練トークン数Dと特化トークン数D'を与えた場合に推定する損失予測フレームワークを提供し、モデルサイズとデータ予算全体でのスケーラブルな計画を可能にする。
  • このアプローチは、言語モデリングにおいて、さまざまなモデルサイズと計算予算に対して、常識知識と推論のベンチマークで一貫した性能向上をもたらす。
  • このフレームワークは、より大きなモデルサイズとトークン数へ外挿することが可能であり、複数ドメインにおける専門化戦略の実用的な利点を示唆している。

要旨: 言語モデルは、事前学習データの規模と多様性のおかげで、知識、言語、推論タスクのさまざまな分野で印象的な性能を発揮します。標準的なトレーニングのレシピは二段階のパラダイムであり、まず全コーパスのデータで事前学習を行い、その後、全コーパスからの高品質で専門的なデータのサブセットに対する特化を行います。マルチドメイン設定では、これは各専門ドメイン上で複数のモデルを継続的に事前学習させることを含み、これを「分割モデル訓練」と呼びます。私たちは、一般的な事前学習コーパス上で複数のモデルを独立して事前学習させる方法、およびスケーリング則を用いて事前学習と継続事前学習の間の最適な計算資源配分を決定する方法を提案します。私たちのアプローチは、サイズNのモデルをDの事前学習トークンとD'の特化トークンを用いて損失を正確に予測し、より大きなモデルサイズとトークン数へ外挿します。言語モデル訓練に適用すると、さまざまなモデルサイズと計算予算にわたって、常識的知識と推論のベンチマーク全体で一貫して性能を向上させます。