5 t/sで48GB RAMを搭載したM3 MacBook Pro上でQwen3.5 397Bを実行する

Reddit r/LocalLLaMA / 2026/3/19

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

このデモは、Karpathyの自動研究に基づくハーネスとAppleの「LLM in a Flash」アプローチを用いて、48GB RAMを搭載したMacBook Pro M3上でQwen3.5 397Bを5.7 t/sで動作させることを示しています。
著者は、このハードウェア上で18 t/sが可能だという計算結果が示唆されており、ウェイトアクセスパターンがより予測可能な密なモデルは、さらに高速化できる可能性があると述べています。
この投稿には、X.comの記事へのリンク、GitHubリポジトリ（flash-moe）、および検証用の関連論文へのリンクが含まれています。
本研究は、民生用ハードウェア上での実用的なオンデバイスLLM推論の可能性を浮き彫りにし、近い将来、より高速でよりアクセスしやすいローカル推論を示唆しています。

この人、Dan Woods は、KarpathyのautoresearchとAppleの「LLM in a Flash」論文を用いて、Qwen3.5 397B をわずか 48GB RAM のみで 5.7 t/s で動作させるハーネスへと進化させた。

X.com の記事こちら、GitHub リポジトリと論文こちら。

彼は、数学的には彼のハードウェア上で18 t/sが可能だと示唆しており、重みのアクセスパターンがより予測可能な密なモデルはさらに速くなる可能性がある、と述べている。

Azure OpenAI Service ドキュメント

Dev.to

Dev.to

Dev.to

Dev.to