AI Navigate

5 t/sで48GB RAMを搭載したM3 MacBook Pro上でQwen3.5 397Bを実行する

Reddit r/LocalLLaMA / 2026/3/19

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • このデモは、Karpathyの自動研究に基づくハーネスとAppleの「LLM in a Flash」アプローチを用いて、48GB RAMを搭載したMacBook Pro M3上でQwen3.5 397Bを5.7 t/sで動作させることを示しています。
  • 著者は、このハードウェア上で18 t/sが可能だという計算結果が示唆されており、ウェイトアクセスパターンがより予測可能な密なモデルは、さらに高速化できる可能性があると述べています。
  • この投稿には、X.comの記事へのリンク、GitHubリポジトリ(flash-moe)、および検証用の関連論文へのリンクが含まれています。
  • 本研究は、民生用ハードウェア上での実用的なオンデバイスLLM推論の可能性を浮き彫りにし、近い将来、より高速でよりアクセスしやすいローカル推論を示唆しています。

この人、Dan Woods は、KarpathyのautoresearchとAppleの「LLM in a Flash」論文を用いて、Qwen3.5 397B をわずか 48GB RAM のみで 5.7 t/s で動作させるハーネスへと進化させた。

X.com の記事 こちら、GitHub リポジトリと論文 こちら

彼は、数学的には彼のハードウェア上で18 t/sが可能だと示唆しており、重みのアクセスパターンがより予測可能な密なモデルはさらに速くなる可能性がある、と述べている。

投稿者 /u/jawondo
[リンク] [コメント]