AI Navigate

ファインチューナーの誤謬:ファインチューニングデータで事前学習を行うべき時

arXiv cs.LG / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、専門的な事前学習(SPT)という戦略を提案します。これは、総トークンの一部として小規模なドメインデータセットを事前学習中に再利用することで、一般的な能力を維持しつつドメイン特化の性能を向上させるものです。
  • CHEmpPile、MusicPile、ProofPile における実験では、SPT はファインチューニング後のドメイン性能を改善し、標準的な事前学習と比較して、所定のドメイン性能に到達するために必要な事前学習の計算量を最大約1.75倍削減します。
  • SPT はターゲットドメインが事前学習コーパスで過小表現されている場合により大きな利益をもたらし、ウェブテキストから遠いドメインでは1BパラメータのSPTモデルが3Bの標準的な事前学習モデルより優れているケースがあります。
  • 著者らは過適合のスケーリング則を導出し、事前学習予算を踏まえてどの程度のドメインデータを繰り返すべきかを導き、訓練の初期段階でドメインデータを取り入れることを推奨して、利益を最大化します。

要旨: 現実世界のモデル展開は、データが乏しいことが多い狭い領域で高い性能を求めます。
通常、実務者はモデルをファインチューニングして特化させますが、それはドメインへの過学習と一般的な知識の忘却を招くリスクがあります。
私たちは、Specialized Pretraining(SPT)と呼ばれる簡単な戦略を研究します。これは、通常はファインチューニングに充てられる小さなドメインデータセットを、総トークン数の一定割合として、事前学習の開始点から繰り返して用いるものです。
3つの専門領域(ChemPile、MusicPile、ProofPile)において、SPTは標準的な事前学習と比較して、ドメイン性能を向上させ、ファインチューニング後の一般的能力を維持します。
実験では、SPTは特定のドメイン性能を達成するために必要な事前学習トークン数を最大で1.75倍削減します。
ターゲットドメインが事前学習コーパスで過少表現されている場合、これらの利得は拡大します。ウェブテキストから遠いドメインでは、10億パラメータのSPTモデルは30億パラメータの標準的な事前学習モデルを上回ります。
これらの経験的な利得を超えて、実務者が与えられた事前学習の計算予算に対して最適なドメインデータの反復回数を選択するのを導く、過適合のスケーリング則を導出します。
私たちの観察は、ファインチューナーの誤謬を明らかにします。ファインチューニングがドメイン適応への最も安価な道のように見える一方で、事前学習中に専門的なドメインデータを導入すると、その有用性が拡張されます。
SPTは、繰り返し曝露を通じた過剰適合の減少による専門ドメインでの性能向上と、ファインチューニング時の忘却の低減による一般ドメインでの性能向上をもたらし、推論時にオーバーヘッドを分散させたときには、より少ないパラメータと総計算量でより強力な成果を実現します。
ドメインデータを最大限活用するには、訓練の初期段階でできるだけ早く取り入れてください。