混合データから専門ドメインへの言語モデルの最適な分割

arXiv cs.CL / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

論文は、一般コーパス上で複数のモデルを独立に訓練する分割モデル訓練アプローチを導入し、スケーリング則を用いて事前学習とドメイン特化の継続的事前学習の最適な計算資源配分を決定する。
これは、サイズNのモデルの性能を、前訓練トークン数Dと特化トークン数D'を与えた場合に推定する損失予測フレームワークを提供し、モデルサイズとデータ予算全体でのスケーラブルな計画を可能にする。
このアプローチは、言語モデリングにおいて、さまざまなモデルサイズと計算予算に対して、常識知識と推論のベンチマークで一貫した性能向上をもたらす。
このフレームワークは、より大きなモデルサイズとトークン数へ外挿することが可能であり、複数ドメインにおける専門化戦略の実用的な利点を示唆している。

要旨: 言語モデルは、事前学習データの規模と多様性のおかげで、知識、言語、推論タスクのさまざまな分野で印象的な性能を発揮します。標準的なトレーニングのレシピは二段階のパラダイムであり、まず全コーパスのデータで事前学習を行い、その後、全コーパスからの高品質で専門的なデータのサブセットに対する特化を行います。マルチドメイン設定では、これは各専門ドメイン上で複数のモデルを継続的に事前学習させることを含み、これを「分割モデル訓練」と呼びます。私たちは、一般的な事前学習コーパス上で複数のモデルを独立して事前学習させる方法、およびスケーリング則を用いて事前学習と継続事前学習の間の最適な計算資源配分を決定する方法を提案します。私たちのアプローチは、サイズNのモデルをDの事前学習トークンとD'の特化トークンを用いて損失を正確に予測し、より大きなモデルサイズとトークン数へ外挿します。言語モデル訓練に適用すると、さまざまなモデルサイズと計算予算にわたって、常識的知識と推論のベンチマーク全体で一貫して性能を向上させます。

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

認識が不可欠、AIに読み取らせてはいけない情報

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

混合データから専門ドメインへの言語モデルの最適な分割

要点

関連記事

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

認識が不可欠、AIに読み取らせてはいけない情報

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer