Mac Mini 4K 32GB でのローカル LLM の性能

Reddit r/LocalLLaMA / 2026/3/18

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

著者は、ローカルLLM設定を実行する32GB RAM搭載のMac Mini 4Kの具体的なパフォーマンス数値を公開しています。
セットアップには OpenClaw 2026.3.8、LM Studio 0.4.6+1、および Unsloth gpt-oss-20b-Q4_K_S.gguf が使用されています。
デフォルト風の設定を以下のように調整しました：GPUオフロード 18、CPUスレッドプールのサイズ 7、最大同時実行数 4、エキスパート数 4、フラッシュアテンションを有効。
コンテキストサイズは26035トークンと報告され、最初のプロンプトで 0.7 秒の time-to-first-token、1 秒あたり 34 トークンを達成しています。
Reddit のスレッドへのリンクが、全体の議論とコメントを提供しています。

具体的な性能数値を見つけるのは難しいので、私のものを投稿します：

OpenClaw 2026.3.8
LM Studio 0.4.6+1
Unsloth gpt-oss-20b-Q4_K_S.gguf
コンテキストサイズ 26035
その他のモデル設定はデフォルトのままです（GPUオフロード = 18、CPUスレッドプールサイズ = 7、最大同時実行数 = 4、専門家の数 = 4、フラッシュアテンション = オン）

これを使うと、最初のプロンプトの後、34 トークン/秒、最初のトークンまでの時間は0.7秒になります