daVinci-LLM: 事前学習の科学に向けて
arXiv cs.AI / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、基礎となる事前学習(pretraining)が言語モデルの最終的な能力の上限を大きく決定しつつ、事後学習(post-training)に比べてこの段階はいまだ十分に研究されていないと主張する。
- 産業規模の計算資源を用いながらも、学術研究としての完全な自由度を両立する取り組みとして、データ処理パイプライン、学習プロセス、探索結果を完全にオープンにした形で daVinci-LLM を提示する。
- 著者らは Data Darwinism フレームワーク(フィルタリングから合成までの L0〜L9 の分類体系)を用い、データ処理の選択が事前学習の成果にどのように影響するかを体系的に構造化して研究する。
- 8T トークンに対して 2 段階の適応カリキュラムを用い、3B(30億)パラメータのモデルをゼロから学習し、200 以上の制御されたアブレーション(要因除去実験)を実施することで、処理の深さ、ドメイン固有の飽和ダイナミクス、合成的バランスといった主要な駆動要因を定量化する。
- 本研究はさらに、評価プロトコルの設計が進捗の解釈のされ方を変え得ることを示し、再現可能な手法論によって累積的な「事前学習の科学(science of pretraining)」を可能にすることを目指している。




