LLMをゼロから学習する喜びとつらさ

Reddit r/LocalLLaMA / 2026/4/17

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • mii-llmは、エッジ展開と多言語(欧州言語中心)を意識した小規模LLM「Zagreus」「Nesso」ファミリーの開発手順をまとめた技術レポートを公開した。
  • 0.4B(約4億)パラメータ級の言語モデルをスクラッチから学習し、英語+対象言語のバイリンガル事前学習を軸にイタリア語・スペイン語・フランス語・ポルトガル語へ対応している。
  • 公開モデルには、各言語のベースモデルに加えて、会話用途向けのinstructモデルや、構造化/エージェント的タスク向けのagenticモデル、さらにオープンデータとオープンレシピで構築した「Open-Zagreus」も含まれる。
  • 学習構成として64台のNVIDIA A100、約1兆トークン、Hugging Face Nanotron(事前学習)、Axolotl(ポストトレーニング)、Slurmによるマルチノード運用などが記載されている。
  • 1B未満の規模ではMoE(疎行性)よりも安定性やリソース活用を重視した「dense 0.4Bアーキテクチャ」を選んだ理由も説明している。
The joy and pain of training an LLM from scratch

mii-llm が、Zagreus および Nesso モデルファミリーの開発に関する詳細な 技術レポートを公開しました。エッジ展開多言語対応欧州言語に重点を置いた、0.4Bパラメータの言語モデル群をスクラッチから学習したものです。

このレポートでは、イタリア語、スペイン語、フランス語、ポルトガル語向けに設計された小型言語モデルファミリーの背後にある完全なパイプラインが記載されています。英語 + 対象言語の設定を中心としたバイリンガルな事前学習を行っています。

公開されたモデル

学習のセットアップ

レポートによると、このプロジェクトでは以下を使用しました:

  • 64 NVIDIA A100 GPUs
  • 約1兆トークン
  • トークン化のためのDatatrove
  • 事前学習のためのHugging Face Nanotron
  • ポストトレーニングのためのAxolotl
  • マルチノードのオーケストレーションのためのSlurm

また、このレポートでは MoEではなく密な0.4Bアーキテクチャ が選ばれた理由も説明しています。サブ1Bの領域では、疎な効率よりも安定性と利用率のほうが重要になり得る、と主張しています。

なぜこれは面白いのか

現在の議論の多くはフロンティア規模のモデルに焦点を当てていますが、このレポートは逆方向の有用な例です。実用的な多言語エッジシナリオに向けて、スクラッチから学習した小型モデルです。

目立つポイント:

  • パイプラインをうまく設計すれば、小型の多言語モデルでも競争力を持てる
  • ポスト学習は使いやすさに大きな影響を与える
  • モデルの振る舞いは、イタリア語タスクと英語タスクで大きく異なる
  • オープンなパイプラインでも、このサイズ帯で意味のある結果を出せる
  • 小型モデルは、算術、事実想起、反復、ドメイン固有知識において依然として明確な弱点を示す

ベンチマークの注記

レポートには Qwen3-0.6B および Qwen3.5-0.8B との比較が含まれており、多言語評価やタスクごとの分析も併せて示されています。

いくつか興味深い示唆:

  • Nesso-0.4B-agentic は、特にイタリア語タスクで強く一貫しているように見える
  • Qwen3.5-0.8B は、いくつかの英語の生成タスクでより良い性能を発揮する
  • Qwen3-0.6B は、論理/推論タイプのタスクで際立っている
  • 完全オープンなバリアントでも、いくつかの設定では競争力のある結果を達成している

llm-as-judge の比較

https://preview.redd.it/1kw9luyvhpvg1.png?width=1935&format=png&auto=webp&s=f8781a4c64ab51d00853d84120541925d8674c54

https://preview.redd.it/q2hj6vz2ipvg1.png?width=2385&format=png&auto=webp&s=8d4484384743eacbb119896b18f91f894a8eb839

古典的ベンチマーク

https://preview.redd.it/ri1vkdz9gpvg1.png?width=630&format=png&auto=webp&s=f889f5e16366537cc534e50e7921669d8d95fa68

イタリア語ベンチマーク結果

https://preview.redd.it/0ounb0negpvg1.png?width=630&format=png&auto=webp&s=df6fb43e4348795d1a0bd36e98954c6f7afa432e

英語ベンチマーク結果 english-nesso.png

https://preview.redd.it/ttq58dtggpvg1.png?width=630&format=png&auto=webp&s=b2f029b6c6cf310176e11f419826b56ad97c40db

主な持ち帰り

これは、2026年にスクラッチから小型の多言語LLMを学習する「実際にどのようなものか」を示す、しっかりした事例研究です。トークン化、ストレージ、Slurmによるオーケストレーション、分散学習、ポスト学習、評価、そしてモデルの公開。

小型言語モデル、多言語学習、エッジ展開、またはオープンなLLMエンジニアリングに関心のある人にとって、このレポートは読む価値があります。

submitted by /u/kazzus78
[link] [comments]