AI Navigate

インサイト最新記事一覧 AI大全

広告

daVinci-LLM-3B

Reddit r/LocalLLaMA / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

daVinci-LLM-3Bは約30億パラメータのベース言語モデルで、事前学習（pretraining）を透明かつ再現可能な科学的プロセスにすることを目的として公開されています。
最終的な重みだけでなく、学習の軌跡、途中チェックポイント、データ処理の判断、200件以上のアブレーション研究（データ品質・混合設計・学習ダイナミクス・評価妥当性など）も提供されています。
約8Tトークンの2段階カリキュラムを採用しており、前半は多様なWebスケールコーパスでの広範な事前学習、後半は数学・コード推論を強化するQA/推論寄りデータで学習します。
リリースにあたり、モデルのGitHub、論文、学習に用いたデータセット（Hugging Face）へのリンクが提示されています。

daVinci-LLM-3B

- https://huggingface.co/SII-GAIR-NLP/davinci-llm-model

概要

daVinci-LLM-3B は daV inci-LLM: Towards the Science of Pretraining によって提示された、3Bパラメータの基盤言語モデルです。このプロジェクトは、事前学習プロセスを透明で再現可能な科学的取り組みにすることを目指しています。

私たちは最終的な重みだけでなく、学習の軌跡、途中チェックポイント、データ処理の判断、さらに200件以上のアブレーション研究（データ品質、混合設計、学習ダイナミクス、評価の妥当性を含む）も公開します。

GitHub: GAIR-NLP/daVinci-LLM
論文: arXiv:2603.27164
データセット: davinci-llm-data

このモデルは約8Tトークンにわたる2段階のカリキュラムに従います：

ステージ1（6Tトークン）: 多様なWeb規模のコーパスに対する広範な事前学習。
ステージ2（2Tトークン）: 数学およびコード推論を強化するための、構造化されたQAと推論中心のデータ。

提出者 /u/Aaaaaaaaaeeeee
[リンク] [コメント]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/7Dailyインサイトを見る →

関連記事

Black Hat Asia

Black Hat Asia

AI Business

こちらからチケットをお取りください →

こちらからチケットをお取りください →

The Batch

AIエージェントが工事の工程表を最短15分で作成、建設大手も導入に関心

AIエージェントが工事の工程表を最短15分で作成、建設大手も導入に関心

日経XTECH

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

日経XTECH

ファナック、フィジカルAIに本気も人型ロボは静観自前主義から脱却も

ファナック、フィジカルAIに本気も人型ロボは静観自前主義から脱却も

日経XTECH

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告