18th March 2026 - リンクブログ
Appleの「LLM in a Flash」をローカルで動かすための自動研究. 以下は Dan Woods による興味深い研究の一例で、彼はディスク上で 209GB (量子化後 120GB) を占めるこのモデルのカスタム版を、48GB の MacBook Pro M3 Max 上で 5.5+ トークン/秒で動かすことに成功しました。
Qwen3.5-397B-A17B は Mixture-of-Experts (MoE) モデルで、つまり各トークンは全体のモデルウェイトのサブセットだけを実行するだけで済みます。これらのエキスパート重みは SSD からメモリへストリーミングして、すべてを同時に RAM に保持する必要をなくします。
Dan は Apple の 2023 年の論文 LLM in a flash: Efficient Large Language Model Inference with Limited Memory に記述された技術を用いました:
この論文は、利用可能な DRAM 容量を超える LLM を、モデルパラメータをフラッシュメモリに格納して、必要に応じて DRAM に読み出すことで効率的に実行するという課題に取り組んでいます。私たちの手法は、フラッシュメモリの特性を考慮した推論コストモデルを構築し、2つの重要な領域で最適化することを導きます:フラッシュから転送されるデータ量を削減し、データをより大きく連続したチャンクで読み出すこと。
彼はこの論文を Claude Code に入力し、Andrej Karpathy の 自動研究パターン の派生形を用いて Claude に 90 件の実験を実行させ、モデルをできるだけ効率的に動作させる MLX Objective-C および Metal コードを作成させました。
danveloper/flash-moe には、生成されたコードと、Claude Opus 4.6 がほとんど執筆した PDF 論文 が含まれており、実験を詳述しています。
最終モデルはエキスパートを 2 ビットへ量子化していますが、埋め込みテーブルやルーティング行列などの非エキスパート部分は元の精度のまま維持され、合計で 5.5GB となり、モデルが動作している間はメモリに常駐します。
Qwen 3.5 は通常、トークンあたり 10 のエキスパートを動かしますが、この設定ではそれを 4 に減らし、最大の品質低下は 3 で起こると主張しています。
モデルの品質への影響がどれくらいかははっきりしません。 Claude は「2ビットでの出力品質は、これらの評価では4ビットと区別できない」と主張しましたが、実行した評価の記述はかなり薄いです。
最近の記事
- GPT-5.4 mini および GPT-5.4 nano は、$52 で 76,000 枚の写真を説明できます - 2026年3月17日
- Pragmatic Summit でのエージェント工学についてのファイヤーサイド・チャット - 2026年3月14日
- 結局、退屈な技術ではないかもしれない - 2026年3月9日
This is a link post by Simon Willison, posted on 18th March 2026.
AI 1918 生成AI 1701 ローカルLLMs 147 LLMs 1667 Qwen 51 MLX 41月次ブリーフィング
月額 $10/月 をスポンサーしていただくと、今月の最も重要な LLM の動向をまとめた厳選メールダイジェストをお届けします。
メールをより少なくお届けするために私に支払ってください。
Sponsor & subscribe