AI Navigate

llama.cpp on $500 MacBook Neo: プロンプト速度 7.8 トークン/秒 / 生成速度 3.9 トークン/秒 Qwen3.5 9B Q3_K_M 上で

Reddit r/LocalLLaMA / 2026/3/12

📰 ニュースTools & Practical UsageModels & Research

要点

  • llama.cpp のビルドを 9B Qwen3.5 モデル (Q3_K_M.gguf) を実行するために、8 GB RAM(Apple A18 Pro)を搭載した $500 MacBook Neo 上で GGUF を使用してコンパイルしました。
  • これは、慎重な最適化を行えば大規模言語モデルが消費者向けハードウェア上で動作できることを示していますが、遅いままです。
  • 観測された速度は、そのデバイス上でプロンプト時約7.8 トークン/秒、生成時約3.9 トークン/秒でした。
  • セットアップは 4 CPU スレッド、4k コンテキスト、バッチサイズ 128、量子化/設定オプション(例: -ctk q4_0、-ctv q4_0、-ngl all)を使用し、デバイス MTL0 で起動しました。
  • ディスク上のモデルファイルは 4.4 GB で、ノートパソコン上で 9B モデルを実行する際のメモリフットプリントを示しています。
\"llama.cpp

MacBook Neo で 8 GB RAM と 9B Qwen3.5 を搭載して llama.cpp をコンパイルしたところ、動作します(遅いですが、いずれにせよ動作します)。

使用した設定:

ビルド - llama.cpp バージョン: 8294 (76ea1c1c4)
マシン - モデル: MacBook Neo (Mac17,5) - チップ: Apple A18 Pro - CPU: 6 コア (2 パフォーマンス + 4 効率) - GPU: Apple A18 Pro, 5 コア, Metal 対応 - メモリ: 8 GB ユニファイド
モデル - Hugging Face リポジトリ: unsloth/Qwen3.5-9B-GGUF
GGUF ファイル: models/Qwen3.5-9B-Q3_K_M.gguf
ディスク上のファイルサイズ: 4.4 GB
起動時ハイパーパラメータ ./build/bin/llama-cli \ -m models/Qwen3.5-9B-Q3_K_M.gguf \ --device MTL0 \ -ngl all \ -c 4096 \ -b 128 \ -ub 64 \ -ctk q4_0 \ -ctv q4_0 \ --reasoning on \ -t 4 \ -tb 6 \ -cnv
投稿者 /u/Shir_man
[リンク] [コメント]