私は、LLMの最新アーキテクチャをゼロから実装する本を書きました。このサブに最も関係する部分:
第3章では、GPT-2に対してちょうど4つを入れ替えてLlama 3.2-3Bを作ります:
- LayerNorm → RMSNorm
- 学習済みの位置埋め込み → RoPE
- GELU → SwiGLU
- マルチヘッド注意 → グループ化クエリ注意
その後、Metaの実際の事前学習済み重みを読み込みます。
第5章では、DeepSeekの完全なアーキテクチャを構築します:吸収トリック付きのMLA、デカップルされたRoPE、共有エキスパートときめ細かなセグメンテーションを備えたMoE、補助損失なしのロードバランシング、マルチトークン予測、FP8量子化です。
すべてのコードはオープンソースです:https://github.com/S1LV3RJ1NX/mal-code
無料サンプル付きの本:https://leanpub.com/adventures-with-llms
もし今までに、コードレベルでこれらのモデルの中身が正確にどうなっているのかを理解したいと思ったことがあるなら、役に立つかもしれません。質問があれば喜んでお答えします。
[link] [コメント]




