Appleの『LLM in a Flash』を自動研究してQwen 397Bをローカルで動かす

Simon Willison's Blog / 2026/3/19

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • ある研究者が、Apple の LLM-in-a-Flash アプローチを用いて、48GB の MacBook Pro M3 Max で Qwen-3.5-397B-A17B をローカルに実行し、5.5 トークン/秒以上の速度を達成したが、モデルはディスク上で約209GBを占有しており(量子化後は120GB)
  • Qwen-3.5-397B-A17B は Mixture-of-Experts モデルであり、トークンごとにウェイトの一部を用いて計算を行い、エキスパートのウェイトを SSD からメモリへストリーミングすることで RAM 要件を抑えることができる
  • この実験は Apple の 2023 年の論文『LLM in a Flash: Efficient Large Language Model Inference with Limited Memory』を基盤としており、フラッシュデータ転送をモデル化・最小化し、メモリ効率のための読み取りパターンを最適化する
  • Dan Woods は Claude Code と Andrej Karpathy の autoresearch のバリアントを用いて 90 件の実験を実施し、性能を最大化する MLX Objective-C および Metal コードを作成した。結果は danveloper/flash-moe に記録され、併せて PDF 論文が公開されている
  • 最終的なモデルはエキスパートを 2 ビットへ量子化し、埋め込みやルーティング行列などの非エキスパート部分は高精度のままにすることで、推論時にはメモリ上に約 5.5GB が常駐し、この設定は通常のエキスパート数を 1 トークンあたり低減する(投稿には正確な値は記載されていない)
スポンサー提供: CodeRabbit — Plannerは再作業とAIの浪費を最小限に抑えつつ、あなたのコーディングエージェントを10倍効率化します。 今すぐ試す

18th March 2026 - リンクブログ

Appleの「LLM in a Flash」をローカルで動かすための自動研究. 以下は Dan Woods による興味深い研究の一例で、彼はディスク上で 209GB (量子化後 120GB) を占めるこのモデルのカスタム版を、48GB の MacBook Pro M3 Max 上で 5.5+ トークン/秒で動かすことに成功しました。

Qwen3.5-397B-A17B は Mixture-of-Experts (MoE) モデルで、つまり各トークンは全体のモデルウェイトのサブセットだけを実行するだけで済みます。これらのエキスパート重みは SSD からメモリへストリーミングして、すべてを同時に RAM に保持する必要をなくします。

Dan は Apple の 2023 年の論文 LLM in a flash: Efficient Large Language Model Inference with Limited Memory に記述された技術を用いました:

この論文は、利用可能な DRAM 容量を超える LLM を、モデルパラメータをフラッシュメモリに格納して、必要に応じて DRAM に読み出すことで効率的に実行するという課題に取り組んでいます。私たちの手法は、フラッシュメモリの特性を考慮した推論コストモデルを構築し、2つの重要な領域で最適化することを導きます:フラッシュから転送されるデータ量を削減し、データをより大きく連続したチャンクで読み出すこと。

彼はこの論文を Claude Code に入力し、Andrej Karpathy の 自動研究パターン の派生形を用いて Claude に 90 件の実験を実行させ、モデルをできるだけ効率的に動作させる MLX Objective-C および Metal コードを作成させました。

danveloper/flash-moe には、生成されたコードと、Claude Opus 4.6 がほとんど執筆した PDF 論文 が含まれており、実験を詳述しています。

最終モデルはエキスパートを 2 ビットへ量子化していますが、埋め込みテーブルやルーティング行列などの非エキスパート部分は元の精度のまま維持され、合計で 5.5GB となり、モデルが動作している間はメモリに常駐します。

Qwen 3.5 は通常、トークンあたり 10 のエキスパートを動かしますが、この設定ではそれを 4 に減らし、最大の品質低下は 3 で起こると主張しています。

モデルの品質への影響がどれくらいかははっきりしません。 Claude は「2ビットでの出力品質は、これらの評価では4ビットと区別できない」と主張しましたが、実行した評価の記述はかなり薄いです。

投稿 2026年3月18日 午後11時56分

This is a link post by Simon Willison, posted on 18th March 2026.

AI 1918 生成AI 1701 ローカルLLMs 147 LLMs 1667 Qwen 51 MLX 41

月次ブリーフィング

月額 $10/月 をスポンサーしていただくと、今月の最も重要な LLM の動向をまとめた厳選メールダイジェストをお届けします。

メールをより少なくお届けするために私に支払ってください。

Sponsor & subscribe