こんにちは。まず最初に、高品質なGGUFを作り続けてくれているUnslothのたゆまぬ努力に、そしてここでの私たちとのフレンドリーなやり取りに対して、心から大きな感謝を伝えたいです。
私はDebian 13上で最新のllama.cppを使って、CPUのみのセットアップで動かしています。なぜか私の環境では、UnslothのGGUFは、別の制作者の同程度のサイズのものと比べて、約30%ほどトークン/秒が低くなっており、続きの応答を処理するのにもかなり時間がかかります。
- Qwen3.6-35B-A3B-UD-IQ4_NL (18.0 GB) [Unsloth]
- 初回応答: 6.14 t/s
- 最初のフォローアップ応答の遅延: 25秒
- Qwen_Qwen3.6-35B-A3B-IQ4_NL (19.9 GB)
- 初回応答: 8.71 t/s
- 最初のフォローアップ応答の遅延: 14秒
- Qwen3.6-35B-A3B-UD-IQ4_XS (17.7 GB) [Unsloth]
- 初回応答: 5.91 t/s
- 最初のフォローアップ応答の遅延: 29秒
- Qwen_Qwen3.6-35B-A3B-IQ4_XS (18.8 GB)
- 初回応答: 8.75 t/s
- 最初のフォローアップ応答の遅延: 20秒
なので、最適化の余地があるのかもしれません。差は大きくはないものの、体感としては分かりますし、おそらくCPUのみのセットアップのほうがより顕著です。以下に、llama.cppの出力の一部を載せます。お役に立てれば幸いです!
llama-server --reasoning off -m ~/Desktop/Qwen3.6-35B-A3B-UD-IQ4_NL.gguf load_backend: loaded RPC backend from /home/myself/Desktop/llama-b8833/libggml-rpc.so load_backend: loaded CPU backend from /home/myself/Desktop/llama-b8833/libggml-cpu-haswell.so main: n_parallel is set to auto, using n_parallel = 4 and kv_unified = true build_info: b8833-45cac7ca7 system_info: n_threads = 6 (n_threads_batch = 6) / 12 | CPU : SSE3 = 1 | SSSE3 = 1 | AVX = 1 | AVX2 = 1 | F16C = 1 | FMA = 1 | BMI2 = 1 | LLAMAFILE = 1 | OPENMP = 1 | REPACK = 1 | SSL initなしで起動: HTTPサーバ起動用に11スレッドを使用 start: binding port with default address family main: loading model srv load_model: loading model '/home/myself/Desktop/Qwen3.6-35B-A3B-UD-IQ4_NL.gguf' common_init_result: paramsをデバイスメモリに当てはめ中、この手順でバグが出る場合は -fit off で再現してみるか、バグが -fit on のときだけ起きるなら --verbose logs を提供してください llama_params_fit_impl: dedicated memoryを持つデバイスが見つかりませんでした llama_params_fit: free device memory に正常にparamsを適合させました llama_params_fit: free memoryにparamsを適合させるのに0.57秒かかりました [link] [comments]




