広告

llama.cpp -ngl 0 でもいくらかGPU使用が見えるのはなぜ?

Reddit r/LocalLLaMA / 2026/3/30

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • 投稿では、ユーザーが CUDA、OpenBLAS、AVX512 を有効にして llama.cpp をコンパイルした一方で、-ngl 0 オプションを使って推論を純粋に CPU のみで実行しようとしている。
  • しかし -ngl 0 の指定にもかかわらず、nvtop で確認すると、llama-cli によるモデル読み込み中に GPU の動作と GPU/RAM 使用量の増加が観測される。
  • この質問は、GPU オフロードが無効になっている(ように見える)にもかかわらず、なぜ GPU リソースがまだ利用されるのかに焦点を当てている。
  • 状況としては、CUDA に関連した初期化、起動/読み込み時の一部における GPU 参加、あるいは llama.cpp がコンパイル済みバックエンドを扱う方法に起因する挙動の可能性が示唆されている。

私の llama.cpp は CUDA サポート、OpenBLAS、AVX512 でコンパイルされています。実験中なので、当面は推論を純粋に CPU 上で行うようにしたいと考えています。

-ngl 0 を指定しても GPU をまだ使っているようです。llama-cli 経由でモデルをロードする際に、GPU プロセッサと RAM 使用量が増加(nvtop を使用)しているのが見えるためです。

それをどう説明できますか?

submitted by /u/sob727
[link] [comments]

広告