過去1年、PyTorchで最初から5つのLLMアーキテクチャを実装し、その過程を記録した本を書きました。
扱う内容:
- バニラのエンコーダ・デコーダ・トランスフォーマ(英語からヒンディー語への翻訳)
- GPT-2(124M)— 実際のOpenAIの事前学習済み重みを読み込み
- Llama 3.2-3B — GPT-2からの正確な4つのコンポーネント差し替え(RMSNorm、RoPE、SwiGLU、GQA)を示し、Metaの事前学習済み重みを読み込み
- KVキャッシュの仕組み、MQA、GQA
- DeepSeek:吸収トリック付きのマルチヘッド・レイテン(潜在)・アテンションとデカップルされたRoPE、共有エキスパートときめ細かなセグメンテーションを用いたDeepSeekMoE、マルチトークン予測、FP8量子化
すべてのコードはオープンソースです:https://github.com/S1LV3RJ1NX/mal-code
この本(説明、導出、図)はLeanpubにあり、無料サンプルがあります:https://leanpub.com/adventures-with-llms
私はTrueFoundryのシニア・フォワード・デプロイメント・エンジニアです。LLMシステムについて企業と一緒に取り組んでいます。私は、GPT-2を超えて、実際に本番環境で動いているアーキテクチャへ踏み込んだリソースが欲しかったため、この文章を書きました。各実装についての議論はいつでも歓迎です。
[リンク] [コメント]




