llama.cpp on $500 MacBook Neo: プロンプト速度 7.8 トークン/秒 / 生成速度 3.9 トークン/秒 Qwen3.5 9B Q3_K_M 上で

Reddit r/LocalLLaMA / 2026/3/12

📰 ニュースTools & Practical UsageModels & Research

原文を読む →

共有:

要点

llama.cpp のビルドを 9B Qwen3.5 モデル (Q3_K_M.gguf) を実行するために、8 GB RAM（Apple A18 Pro）を搭載した $500 MacBook Neo 上で GGUF を使用してコンパイルしました。
これは、慎重な最適化を行えば大規模言語モデルが消費者向けハードウェア上で動作できることを示していますが、遅いままです。
観測された速度は、そのデバイス上でプロンプト時約7.8 トークン/秒、生成時約3.9 トークン/秒でした。
セットアップは 4 CPU スレッド、4k コンテキスト、バッチサイズ 128、量子化/設定オプション（例: -ctk q4_0、-ctv q4_0、-ngl all）を使用し、デバイス MTL0 で起動しました。
ディスク上のモデルファイルは 4.4 GB で、ノートパソコン上で 9B モデルを実行する際のメモリフットプリントを示しています。

$\"llama.cpp$

MacBook Neo で 8 GB RAM と 9B Qwen3.5 を搭載して llama.cpp をコンパイルしたところ、動作します（遅いですが、いずれにせよ動作します）。

使用した設定:

ビルド - llama.cpp バージョン: 8294 (76ea1c1c4)
マシン - モデル: MacBook Neo (Mac17,5) - チップ: Apple A18 Pro - CPU: 6 コア (2 パフォーマンス + 4 効率) - GPU: Apple A18 Pro, 5 コア, Metal 対応 - メモリ: 8 GB ユニファイド
モデル - Hugging Face リポジトリ: unsloth/Qwen3.5-9B-GGUF
GGUF ファイル: models/Qwen3.5-9B-Q3_K_M.gguf
ディスク上のファイルサイズ: 4.4 GB
起動時ハイパーパラメータ ./build/bin/llama-cli \ -m models/Qwen3.5-9B-Q3_K_M.gguf \ --device MTL0 \ -ngl all \ -c 4096 \ -b 128 \ -ub 64 \ -ctk q4_0 \ -ctv q4_0 \ --reasoning on \ -t 4 \ -tb 6 \ -cnv

投稿者 /u/Shir_man
[リンク] [コメント]

コンテンツクリエイターのためのAIプロンプト完全ガイド

Dev.to

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

山積みからプロトコルへ：スケール時のベンダーコンプライアンスにおけるAI活用

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

テックキャリアに4年間も費やしている

Dev.to

llama.cpp on $500 MacBook Neo: プロンプト速度 7.8 トークン/秒 / 生成速度 3.9 トークン/秒 Qwen3.5 9B Q3_K_M 上で

要点

関連記事

コンテンツクリエイターのためのAIプロンプト完全ガイド

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

山積みからプロトコルへ：スケール時のベンダーコンプライアンスにおけるAI活用

MCPスキルとMCPツール: サーバーを正しく構成する方法

テックキャリアに4年間も費やしている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer