AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

LLMをゼロから学習する喜びとつらさ

Reddit r/LocalLLaMA / 2026/4/17

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

原文を読む →

共有:

要点

mii-llmは、エッジ展開と多言語（欧州言語中心）を意識した小規模LLM「Zagreus」「Nesso」ファミリーの開発手順をまとめた技術レポートを公開した。
0.4B（約4億）パラメータ級の言語モデルをスクラッチから学習し、英語＋対象言語のバイリンガル事前学習を軸にイタリア語・スペイン語・フランス語・ポルトガル語へ対応している。
公開モデルには、各言語のベースモデルに加えて、会話用途向けのinstructモデルや、構造化／エージェント的タスク向けのagenticモデル、さらにオープンデータとオープンレシピで構築した「Open-Zagreus」も含まれる。
学習構成として64台のNVIDIA A100、約1兆トークン、Hugging Face Nanotron（事前学習）、Axolotl（ポストトレーニング）、Slurmによるマルチノード運用などが記載されている。
1B未満の規模ではMoE（疎行性）よりも安定性やリソース活用を重視した「dense 0.4Bアーキテクチャ」を選んだ理由も説明している。

The joy and pain of training an LLM from scratch

mii-llm が、Zagreus および Nesso モデルファミリーの開発に関する詳細な技術レポートを公開しました。エッジ展開、多言語対応、欧州言語に重点を置いた、0.4Bパラメータの言語モデル群をスクラッチから学習したものです。

このレポートでは、イタリア語、スペイン語、フランス語、ポルトガル語向けに設計された小型言語モデルファミリーの背後にある完全なパイプラインが記載されています。英語 + 対象言語の設定を中心としたバイリンガルな事前学習を行っています。

公開されたモデル

Zagreus-0.4B-ita — English/Italian ベースモデル
Zagreus-0.4B-spa — English/Spanish ベースモデル
Zagreus-0.4B-fra — English/French ベースモデル
Zagreus-0.4B-por — English/Portuguese ベースモデル
Nesso-0.4B-instruct — 会話用途向けにポスト学習
Nesso-0.4B-agentic — 構造化タスク／エージェント的タスク向けにポスト学習
Open-Zagreus-0.4B — オープンデータとオープンなレシピで構築した、完全オープンなバリアント

学習のセットアップ

レポートによると、このプロジェクトでは以下を使用しました：

64 NVIDIA A100 GPUs
約1兆トークン
トークン化のためのDatatrove
事前学習のためのHugging Face Nanotron
ポストトレーニングのためのAxolotl
マルチノードのオーケストレーションのためのSlurm

また、このレポートでは MoEではなく密な0.4Bアーキテクチャ が選ばれた理由も説明しています。サブ1Bの領域では、疎な効率よりも安定性と利用率のほうが重要になり得る、と主張しています。

なぜこれは面白いのか

現在の議論の多くはフロンティア規模のモデルに焦点を当てていますが、このレポートは逆方向の有用な例です。実用的な多言語エッジシナリオに向けて、スクラッチから学習した小型モデルです。

目立つポイント：

パイプラインをうまく設計すれば、小型の多言語モデルでも競争力を持てる
ポスト学習は使いやすさに大きな影響を与える
モデルの振る舞いは、イタリア語タスクと英語タスクで大きく異なる
オープンなパイプラインでも、このサイズ帯で意味のある結果を出せる
小型モデルは、算術、事実想起、反復、ドメイン固有知識において依然として明確な弱点を示す

ベンチマークの注記

レポートには Qwen3-0.6B および Qwen3.5-0.8B との比較が含まれており、多言語評価やタスクごとの分析も併せて示されています。

いくつか興味深い示唆：

Nesso-0.4B-agentic は、特にイタリア語タスクで強く一貫しているように見える
Qwen3.5-0.8B は、いくつかの英語の生成タスクでより良い性能を発揮する
Qwen3-0.6B は、論理／推論タイプのタスクで際立っている
完全オープンなバリアントでも、いくつかの設定では競争力のある結果を達成している

図

llm-as-judge の比較

https://preview.redd.it/1kw9luyvhpvg1.png?width=1935&format=png&auto=webp&s=f8781a4c64ab51d00853d84120541925d8674c54

https://preview.redd.it/q2hj6vz2ipvg1.png?width=2385&format=png&auto=webp&s=8d4484384743eacbb119896b18f91f894a8eb839

古典的ベンチマーク

https://preview.redd.it/ri1vkdz9gpvg1.png?width=630&format=png&auto=webp&s=f889f5e16366537cc534e50e7921669d8d95fa68

イタリア語ベンチマーク結果

https://preview.redd.it/0ounb0negpvg1.png?width=630&format=png&auto=webp&s=df6fb43e4348795d1a0bd36e98954c6f7afa432e

英語ベンチマーク結果 english-nesso.png

https://preview.redd.it/ttq58dtggpvg1.png?width=630&format=png&auto=webp&s=b2f029b6c6cf310176e11f419826b56ad97c40db

主な持ち帰り

これは、2026年にスクラッチから小型の多言語LLMを学習する「実際にどのようなものか」を示す、しっかりした事例研究です。トークン化、ストレージ、Slurmによるオーケストレーション、分散学習、ポスト学習、評価、そしてモデルの公開。

小型言語モデル、多言語学習、エッジ展開、またはオープンなLLMエンジニアリングに関心のある人にとって、このレポートは読む価値があります。

submitted by /u/kazzus78
[link] [comments]

関連記事

Diffusion Policy : 拡散モデルでロボットを動かす！ロボットがピザを作れる時代に！？

Diffusion Policy : 拡散モデルでロボットを動かす！ロボットがピザを作れる時代に！？

AI-SCHOLAR

FastAPI × LangChain × MongoDB の使い方

FastAPI × LangChain × MongoDB の使い方

Dev.to

【パターン】ちゃんと動くAIエージェントのエラーハンドリング

【パターン】ちゃんと動くAIエージェントのエラーハンドリング

Dev.to

Oracle AI DatabaseでPythonを使ってONNX埋め込みワークフローを構築する方法

Oracle AI DatabaseでPythonを使ってONNX埋め込みワークフローを構築する方法

Dev.to

Green Habit Tracker：AIで小さな行動を本当のインパクトへ変える

Green Habit Tracker：AIで小さな行動を本当のインパクトへ変える

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告