OptiMer: 最適な分布ベクトルのマージは、継続的事前学習におけるデータ・ミキシングよりも優れている

arXiv cs.AI / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、学習前に固定のデータ混合比を選ぶ必要をなくす継続的事前学習アプローチ「OptiMer」を提案する。具体的には、データセットごとのモデルを学習した上で、事後的に構成（合成）重みを最適化する。
OptiMerは、各データセット特化のCPTモデルから「分布ベクトル」を抽出し、そのデータによって生じるパラメータ変化を表現する。そして、この分布ベクトルを組み合わせるための最適な重みを見つけるためにベイズ最適化を用いる。
Gemma 3（27B）を用いた、日本語・中国語といった複数言語、およびMath・Codeといった複数ドメインでの実験により、OptiMerがデータ・ミキシングやモデル平均化のベースラインより性能を向上させることを示す。
本手法は探索コストを15〜35倍削減し、再学習によって改善されたデータ・ミキシングCPTに対して有効な混合比として利用できる、解釈可能な重みを得られる。
同じ分布ベクトルのプールを、再学習なしで異なる目的に向けて再最適化できるため、要求に応じて目的に特化したモデルを作成できる。

Abstract

継続的事前学習は、LLMを対象言語やドメインに適応させるために広く用いられていますが、学習データの混合比率は依然として影響の大きいハイパーパラメータであり、調整コストが高いという問題があります。混合比率は学習開始前に固定する必要があり、不適切な選択は何週間もの計算資源の無駄につながり得ます。本研究では、比率選択を学習から切り離す OptiMer を提案します。具体的には、データセットごとに1つのCPTモデルを学習し、各モデルの分布ベクトル（そのデータセットによって誘起されるパラメータシフトを表す）を抽出します。そのうえで、事後的にベイズ最適化によって最適な構成重みを探索します。言語（日本語、中国語）およびドメイン（数学、コード）にまたがるGemma 3 27Bでの実験では、OptiMerが、データ混合およびモデル平均のベースラインを一貫して上回り、探索コストを15〜35倍低減できることが示されました。主要な知見は、1）最適化された重みはデータ混合比率として解釈でき、これらの比率で再学習することでデータ混合CPTが改善すること、ならびに2）同じベクトル群を、再学習なしで所望の目的に対して再最適化できるため、要望に応じたターゲット特化モデルを生成できること、です。本研究は、従来は事前学習時の判断であったデータ混合比率の選択を、分布ベクトルに対する事後的最適化として再定式化できることを示し、継続的事前学習に対してより柔軟なパラダイムを提供します。