| mii-llm が、Zagreus および Nesso モデルファミリーの開発に関する詳細な 技術レポートを公開しました。エッジ展開、多言語対応、欧州言語に重点を置いた、0.4Bパラメータの言語モデル群をスクラッチから学習したものです。 このレポートでは、イタリア語、スペイン語、フランス語、ポルトガル語向けに設計された小型言語モデルファミリーの背後にある完全なパイプラインが記載されています。英語 + 対象言語の設定を中心としたバイリンガルな事前学習を行っています。 公開されたモデル
学習のセットアップレポートによると、このプロジェクトでは以下を使用しました:
また、このレポートでは MoEではなく密な0.4Bアーキテクチャ が選ばれた理由も説明しています。サブ1Bの領域では、疎な効率よりも安定性と利用率のほうが重要になり得る、と主張しています。 なぜこれは面白いのか現在の議論の多くはフロンティア規模のモデルに焦点を当てていますが、このレポートは逆方向の有用な例です。実用的な多言語エッジシナリオに向けて、スクラッチから学習した小型モデルです。 目立つポイント:
ベンチマークの注記レポートには Qwen3-0.6B および Qwen3.5-0.8B との比較が含まれており、多言語評価やタスクごとの分析も併せて示されています。 いくつか興味深い示唆:
図llm-as-judge の比較 古典的ベンチマーク イタリア語ベンチマーク結果 英語ベンチマーク結果 english-nesso.png 主な持ち帰りこれは、2026年にスクラッチから小型の多言語LLMを学習する「実際にどのようなものか」を示す、しっかりした事例研究です。トークン化、ストレージ、Slurmによるオーケストレーション、分散学習、ポスト学習、評価、そしてモデルの公開。 小型言語モデル、多言語学習、エッジ展開、またはオープンなLLMエンジニアリングに関心のある人にとって、このレポートは読む価値があります。 [link] [comments] |
LLMをゼロから学習する喜びとつらさ
Reddit r/LocalLLaMA / 2026/4/17
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- mii-llmは、エッジ展開と多言語(欧州言語中心)を意識した小規模LLM「Zagreus」「Nesso」ファミリーの開発手順をまとめた技術レポートを公開した。
- 0.4B(約4億)パラメータ級の言語モデルをスクラッチから学習し、英語+対象言語のバイリンガル事前学習を軸にイタリア語・スペイン語・フランス語・ポルトガル語へ対応している。
- 公開モデルには、各言語のベースモデルに加えて、会話用途向けのinstructモデルや、構造化/エージェント的タスク向けのagenticモデル、さらにオープンデータとオープンレシピで構築した「Open-Zagreus」も含まれる。
- 学習構成として64台のNVIDIA A100、約1兆トークン、Hugging Face Nanotron(事前学習)、Axolotl(ポストトレーニング)、Slurmによるマルチノード運用などが記載されている。
- 1B未満の規模ではMoE(疎行性)よりも安定性やリソース活用を重視した「dense 0.4Bアーキテクチャ」を選んだ理由も説明している。




