UnslothのQwen3.6-35B-A3B GGUFはかなり遅い?CPU環境での体感比較(llama.cpp)

Reddit r/LocalLLaMA / 2026/4/18

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • Redditのユーザーが、Debian 13でCPUのみの環境に最新のllama.cppを使う場合、Unsloth製のGGUF(Qwen3.6-35B)が他の作成者の同等モデルよりも体感で遅く、トークン/秒が約30%低いと報告しています。
  • 初期応答だけでなく、フォローアップ応答のレイテンシもUnsloth GGUFの方が長いようで、例えば報告された比較では約25〜29秒(Unsloth)に対して約14〜20秒(他)とされています。
  • 比較にはIQ4_NLの量子化やQwen3.6-35B系の複数バリエーションが含まれており、Unslothのビルドでは約5.9〜6.1 t/s、一方の代替では約8.7〜8.8 t/sとトークン速度の差が示されています。
  • ユーザーは、GGUF生成やランタイム設定などに起因する最適化の余地があるのではないかと示唆し、トラブルシュートの参考としてllama.cppの起動ログの一部を共有しています。
  • 主張は設定やモデルビルドの影響を受けうる前提で述べられており、他者にも再現・検証して原因(GGUF生成/実行条件)を探してほしいという意図です。

こんにちは。まず最初に、高品質なGGUFを作り続けてくれているUnslothのたゆまぬ努力に、そしてここでの私たちとのフレンドリーなやり取りに対して、心から大きな感謝を伝えたいです。

私はDebian 13上で最新のllama.cppを使って、CPUのみのセットアップで動かしています。なぜか私の環境では、UnslothのGGUFは、別の制作者の同程度のサイズのものと比べて、約30%ほどトークン/秒が低くなっており、続きの応答を処理するのにもかなり時間がかかります。


  • Qwen3.6-35B-A3B-UD-IQ4_NL (18.0 GB) [Unsloth]
    • 初回応答: 6.14 t/s
    • 最初のフォローアップ応答の遅延: 25秒
  • Qwen_Qwen3.6-35B-A3B-IQ4_NL (19.9 GB)
    • 初回応答: 8.71 t/s
    • 最初のフォローアップ応答の遅延: 14秒

  • Qwen3.6-35B-A3B-UD-IQ4_XS (17.7 GB) [Unsloth]
    • 初回応答: 5.91 t/s
    • 最初のフォローアップ応答の遅延: 29秒
  • Qwen_Qwen3.6-35B-A3B-IQ4_XS (18.8 GB)
    • 初回応答: 8.75 t/s
    • 最初のフォローアップ応答の遅延: 20秒

なので、最適化の余地があるのかもしれません。差は大きくはないものの、体感としては分かりますし、おそらくCPUのみのセットアップのほうがより顕著です。以下に、llama.cppの出力の一部を載せます。お役に立てれば幸いです!

llama-server --reasoning off -m ~/Desktop/Qwen3.6-35B-A3B-UD-IQ4_NL.gguf load_backend: loaded RPC backend from /home/myself/Desktop/llama-b8833/libggml-rpc.so load_backend: loaded CPU backend from /home/myself/Desktop/llama-b8833/libggml-cpu-haswell.so main: n_parallel is set to auto, using n_parallel = 4 and kv_unified = true build_info: b8833-45cac7ca7 system_info: n_threads = 6 (n_threads_batch = 6) / 12 | CPU : SSE3 = 1 | SSSE3 = 1 | AVX = 1 | AVX2 = 1 | F16C = 1 | FMA = 1 | BMI2 = 1 | LLAMAFILE = 1 | OPENMP = 1 | REPACK = 1 | SSL initなしで起動: HTTPサーバ起動用に11スレッドを使用 start: binding port with default address family main: loading model srv load_model: loading model '/home/myself/Desktop/Qwen3.6-35B-A3B-UD-IQ4_NL.gguf' common_init_result: paramsをデバイスメモリに当てはめ中、この手順でバグが出る場合は -fit off で再現してみるか、バグが -fit on のときだけ起きるなら --verbose logs を提供してください llama_params_fit_impl: dedicated memoryを持つデバイスが見つかりませんでした llama_params_fit: free device memory に正常にparamsを適合させました llama_params_fit: free memoryにparamsを適合させるのに0.57秒かかりました 
submitted by /u/Quagmirable
[link] [comments]