私の llama.cpp は CUDA サポート、OpenBLAS、AVX512 でコンパイルされています。実験中なので、当面は推論を純粋に CPU 上で行うようにしたいと考えています。
-ngl 0 を指定しても GPU をまだ使っているようです。llama-cli 経由でモデルをロードする際に、GPU プロセッサと RAM 使用量が増加(nvtop を使用)しているのが見えるためです。
それをどう説明できますか?
[link] [comments]
Reddit r/LocalLLaMA / 2026/3/30
私の llama.cpp は CUDA サポート、OpenBLAS、AVX512 でコンパイルされています。実験中なので、当面は推論を純粋に CPU 上で行うようにしたいと考えています。
-ngl 0 を指定しても GPU をまだ使っているようです。llama-cli 経由でモデルをロードする際に、GPU プロセッサと RAM 使用量が増加(nvtop を使用)しているのが見えるためです。
それをどう説明できますか?