daVinci-LLM-3B

Reddit r/LocalLLaMA / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • daVinci-LLM-3Bは約30億パラメータのベース言語モデルで、事前学習(pretraining)を透明かつ再現可能な科学的プロセスにすることを目的として公開されています。
  • 最終的な重みだけでなく、学習の軌跡、途中チェックポイント、データ処理の判断、200件以上のアブレーション研究(データ品質・混合設計・学習ダイナミクス・評価妥当性など)も提供されています。
  • 約8Tトークンの2段階カリキュラムを採用しており、前半は多様なWebスケールコーパスでの広範な事前学習、後半は数学・コード推論を強化するQA/推論寄りデータで学習します。
  • リリースにあたり、モデルのGitHub、論文、学習に用いたデータセット(Hugging Face)へのリンクが提示されています。
daVinci-LLM-3B

- https://huggingface.co/SII-GAIR-NLP/davinci-llm-model

概要

daVinci-LLM-3BdaVinci-LLM: Towards the Science of Pretraining によって提示された、3Bパラメータの基盤言語モデルです。このプロジェクトは、事前学習プロセスを透明で再現可能な科学的取り組みにすることを目指しています。

私たちは最終的な重みだけでなく、学習の軌跡、途中チェックポイント、データ処理の判断、さらに200件以上のアブレーション研究(データ品質、混合設計、学習ダイナミクス、評価の妥当性を含む)も公開します。

このモデルは約8Tトークンにわたる2段階のカリキュラムに従います:

  • ステージ1(6Tトークン): 多様なWeb規模のコーパスに対する広範な事前学習。
  • ステージ2(2Tトークン): 数学およびコード推論を強化するための、構造化されたQAと推論中心のデータ。
提出者 /u/Aaaaaaaaaeeeee
[リンク] [コメント]