ollamaの OLLAMA_NUM_PARALLEL の数、どうやって決める?

Zenn / 2026/4/19

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • OLLAMA_NUM_PARALLEL は、Ollama が同時に処理する並列数を調整するための環境変数で、増やすとスループットが上がる可能性がある一方でメモリやレイテンシに影響するため慎重に決める必要がある。
  • 並列数は主に GPU/CPU の性能、モデルのサイズ、推論時のメモリ使用量、同時リクエストの性質(短時間バッチか対話型か)を見て段階的に上限を探るのが基本となる。
  • 低すぎると待ち時間や処理効率が悪化し、高すぎると OOM(メモリ不足)や極端な遅延、スロットリングのような挙動につながりやすい。
  • 実運用では、実測(レイテンシ、VRAM/RAM 使用率、エラー率)を指標にして安全側の値から増減し、最適点を見つける運用が有効である。
Ollama で並列推論をやろうとしたら、OLLAMA_NUM_PARALLEL をいくつにすればいいのか問題で悩んだので、備忘録を残す。 色々調べても「VRAM に応じて」や、GitHub Issue などでは「32 で動いた」「20 でクラッシュした」みたいな報告がバラバラに出てくる。 I/O バウンドな Web 検索 + LLM のバッチを回していて、最終的に vast.ai で GPU を複数借りて分散する構成に落ち着いた。以下の数値は自環境(Ollama の特定バージョン、gemma 系、CUDA GPU)での話で、モデル・バージョンで変わるのであくまでも目安まで。 並列数...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →