daVinci-LLM: 事前学習の科学に向けて

arXiv cs.AI / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、基礎となる事前学習（pretraining）が言語モデルの最終的な能力の上限を大きく決定しつつ、事後学習（post-training）に比べてこの段階はいまだ十分に研究されていないと主張する。
産業規模の計算資源を用いながらも、学術研究としての完全な自由度を両立する取り組みとして、データ処理パイプライン、学習プロセス、探索結果を完全にオープンにした形で daVinci-LLM を提示する。
著者らは Data Darwinism フレームワーク（フィルタリングから合成までの L0〜L9 の分類体系）を用い、データ処理の選択が事前学習の成果にどのように影響するかを体系的に構造化して研究する。
8T トークンに対して 2 段階の適応カリキュラムを用い、3B（30億）パラメータのモデルをゼロから学習し、200 以上の制御されたアブレーション（要因除去実験）を実施することで、処理の深さ、ドメイン固有の飽和ダイナミクス、合成的バランスといった主要な駆動要因を定量化する。
本研究はさらに、評価プロトコルの設計が進捗の解釈のされ方を変え得ることを示し、再現可能な手法論によって累積的な「事前学習の科学（science of pretraining）」を可能にすることを目指している。

Abstract

基礎となる事前学習フェーズは、モデルの能力の上限を決定します。事後学習では、事前学習中に確立された能力の基盤を乗り越えるのが難しい一方で、その点は依然として決定的に未解明です。これは構造的パラドックスに起因します。計算資源を持つ組織は、商業的な圧力のために透明な開示が阻まれます。一方で、学術機関には研究の自由がありますが、事前学習規模に見合う計算資源がありません。daVinci-LLMは、この未踏の交差点に位置し、産業規模の資源と完全な研究の自由を組み合わせて、事前学習の科学を前進させます。私たちは、オープン性を科学的手法として扱う、完全にオープンなパラダイムを採用します。すなわち、データ処理の完全なパイプライン、完全な学習プロセス、そして系統的な探索結果を公開します。分野にはデータ処理のための体系的手法が欠けていることを踏まえ、フィルタリングから合成までを扱う、原則に基づくL0〜L9のタクソノミであるData Darwinismフレームワークを用います。8Tトークンに対しランダム初期化から3Bパラメータのモデルを学習し、基礎能力から推論中心の強化へと段階的に移行する、2段階の適応カリキュラムを採用します。200件以上の制御されたアブレーションにより、次を確立します。処理の深さは能力を体系的に高め、体積スケーリングと並ぶ重要な次元として位置づけられること；異なる領域では異なる飽和ダイナミクスが現れ、割合調整からフォーマットの変更まで含む適応的戦略が必要であること；合成的なバランスにより、パフォーマンスの崩壊を防ぎつつ狙った強化を実現できること；評価プロトコルの選択が、事前学習の進展に対する理解の仕方をどのように形作るか。探索プロセス全体を公開することで、コミュニティが私たちの知見と体系的手法に基づいて積み上げ式の科学的知識を、事前学習の領域で形成できるようにします。