Linuxで、CUDAサポート付きで自分の環境で llama.cpp をコンパイルしていると、Qwen3.5-9B-GGUF:Q4_K_M を RTX A2000 12GB みたいな「ポテト」環境で動かしているとき、top は常に 1 つの CPU コアが 100% まで張り付いている状態を表示していました。さらに、nvidia-smi では GPU メモリ使用量が 11GB+ と表示されます。速度は約 30 トークン/秒です。この単一コアが張り付くと、システムファンが回り始めるので、聞くのがうるさくて面倒でした。
何か違いがあるか確かめたくて、再度 llama.cpp を Vulkan バックエンドでコンパイルすることにしました。さて、まったく同じモデルを使った場合、結果は大きく変わりました。今では top は 1 つの CPU コアを約 30% 使用として表示するだけで、nvidia-smi は GPU メモリ使用量が 7.2GB だけだと表示しています。速度は同じく約 30 トークン/秒です。推論を動かしている間、もうシステムファンが回りません。
ただ、なぜ Vulkan を使うと GPU メモリのフットプリントが低くなり、CPU 使用率も低くなるのか気になっています。
[link] [comments]



