要点

ある研究者が、Apple の LLM-in-a-Flash アプローチを用いて、48GB の MacBook Pro M3 Max で Qwen-3.5-397B-A17B をローカルに実行し、5.5 トークン/秒以上の速度を達成したが、モデルはディスク上で約209GBを占有しており（量子化後は120GB）
Qwen-3.5-397B-A17B は Mixture-of-Experts モデルであり、トークンごとにウェイトの一部を用いて計算を行い、エキスパートのウェイトを SSD からメモリへストリーミングすることで RAM 要件を抑えることができる
この実験は Apple の 2023 年の論文『LLM in a Flash: Efficient Large Language Model Inference with Limited Memory』を基盤としており、フラッシュデータ転送をモデル化・最小化し、メモリ効率のための読み取りパターンを最適化する
Dan Woods は Claude Code と Andrej Karpathy の autoresearch のバリアントを用いて 90 件の実験を実施し、性能を最大化する MLX Objective-C および Metal コードを作成した。結果は danveloper/flash-moe に記録され、併せて PDF 論文が公開されている
最終的なモデルはエキスパートを 2 ビットへ量子化し、埋め込みやルーティング行列などの非エキスパート部分は高精度のままにすることで、推論時にはメモリ上に約 5.5GB が常駐し、この設定は通常のエキスパート数を 1 トークンあたり低減する（投稿には正確な値は記載されていない）

サイモン・ウィリソンのウェブログ

スポンサー提供： CodeRabbit — Plannerは再作業とAIの浪費を最小限に抑えつつ、あなたのコーディングエージェントを10倍効率化します。今すぐ試す。

18th March 2026 - リンクブログ

Appleの「LLM in a Flash」をローカルで動かすための自動研究. 以下は Dan Woods による興味深い研究の一例で、彼はディスク上で 209GB (量子化後 120GB) を占めるこのモデルのカスタム版を、48GB の MacBook Pro M3 Max 上で 5.5+ トークン/秒で動かすことに成功しました。

Qwen3.5-397B-A17B は Mixture-of-Experts (MoE) モデルで、つまり各トークンは全体のモデルウェイトのサブセットだけを実行するだけで済みます。これらのエキスパート重みは SSD からメモリへストリーミングして、すべてを同時に RAM に保持する必要をなくします。

Dan は Apple の 2023 年の論文 LLM in a flash: Efficient Large Language Model Inference with Limited Memory に記述された技術を用いました：

この論文は、利用可能な DRAM 容量を超える LLM を、モデルパラメータをフラッシュメモリに格納して、必要に応じて DRAM に読み出すことで効率的に実行するという課題に取り組んでいます。私たちの手法は、フラッシュメモリの特性を考慮した推論コストモデルを構築し、2つの重要な領域で最適化することを導きます：フラッシュから転送されるデータ量を削減し、データをより大きく連続したチャンクで読み出すこと。

彼はこの論文を Claude Code に入力し、Andrej Karpathy の自動研究パターンの派生形を用いて Claude に 90 件の実験を実行させ、モデルをできるだけ効率的に動作させる MLX Objective-C および Metal コードを作成させました。

danveloper/flash-moe には、生成されたコードと、Claude Opus 4.6 がほとんど執筆した PDF 論文が含まれており、実験を詳述しています。

最終モデルはエキスパートを 2 ビットへ量子化していますが、埋め込みテーブルやルーティング行列などの非エキスパート部分は元の精度のまま維持され、合計で 5.5GB となり、モデルが動作している間はメモリに常駐します。

Qwen 3.5 は通常、トークンあたり 10 のエキスパートを動かしますが、この設定ではそれを 4 に減らし、最大の品質低下は 3 で起こると主張しています。

モデルの品質への影響がどれくらいかははっきりしません。 Claude は「2ビットでの出力品質は、これらの評価では4ビットと区別できない」と主張しましたが、実行した評価の記述はかなり薄いです。

投稿 2026年3月18日午後11時56分

Appleの『LLM in a Flash』を自動研究してQwen 397Bをローカルで動かす

要点

サイモン・ウィリソンのウェブログ

最近の記事

月次ブリーフィング

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Google Stitch「バイブデザイン」登場—自然言語でUIを作る時代へ

KADOKAWAとnoteが資本業務提携　AI時代の「創作エコシステム」実現へ

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

サイモン・ウィリソンのウェブログ

最近の記事

月次ブリーフィング

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Google Stitch「バイブデザイン」登場—自然言語でUIを作る時代へ

KADOKAWAとnoteが資本業務提携 AI時代の「創作エコシステム」実現へ

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

KADOKAWAとnoteが資本業務提携　AI時代の「創作エコシステム」実現へ