要旨: 直接的に言語モデルを蒸留する代わりに、本研究は分布において基盤モデルとターゲットモデルを整合させる問題に取り組む。事前学習または継続的事前学習のためのトレーニングデータのドメイン混合を、固定のトレーニングレシピとして設計することによって。
対数尤度空間の点としてモデルを捉え、トレーニング更新の方向をターゲットモデルへ向かう方向と整合させることで、ドメイン重みを決定する方法を提案します。NanoGPTを用いた実験は、提案手法がPileに対して一様重み付けを行う場合と比較して、ターゲットモデルへのKLダイバージェンスを一貫して低減することを示しています。知識蒸留が利用可能な場合には依然としてより効果的である一方で、提案手法は有意義な整合を達成し、下流タスクの性能もターゲットモデルの性能に近づく傾向があります。
ターゲットモデルと整合させるための対数尤度差を用いたドメイン混合設計
arXiv cs.CL / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、事前学習または継続的な事前学習のデータにおけるドメイン重みを固定のレシピとして設計することで、ベースの言語モデルをターゲットモデルと整合させることを提案している。
- モデルを対数尤度空間の点として扱い、ターゲットモデルへ向かうベクトルに沿うように学習更新の方向を整列させることで、ダイバージェンスを最小化する。
- NanoGPTを用いた実験では、Pile全体に対する一様な重み付けと比較して、ドメイン重み付け法がターゲットモデルへのKLダイバージェンスを低減することを示した。
- 知識蒸留が利用可能な場合には依然としてより効果的である一方で、この手法は意味のある整合を生み出し、多くの場合、下流タスクの性能をターゲットモデルへ近づける。

