「自社の手元で大規模言語モデル(LLM)を動かす」ローカルLLMは、機密データを外に出さず、利用量が増えてもコストを読みやすく、応答の遅延も自分でコントロールできるのが魅力です。本記事は、開発者がすぐ触れるOllamaと、本番の高負荷に耐える推論サーバーvLLMを軸に、「動かす」から一歩進んだ運用の勘所を、図とともに初めての人にも分かるよう整理します。
FIG.1 クラウドはデータが社外へ出る/ローカルはデータも推論も自社環境の中で完結する
ローカル運用には、向く場面とそうでない場面があります。社内文書を扱う検索拡張生成(RAG)のようにデータを外に出したくない用途、利用が増えてコストを定額の自社設備に寄せたい用途では強みが出ます。一方、最新・最高品質のモデルをすぐ使いたいだけなら、クラウドAPIのほうが手間もリスクも小さいことが多い。両者は対立ではなく使い分けです。
01OllamaとvLLM、役割の違い
最初に二つの道具の立ち位置を分けておくと、後の判断が楽になります。ざっくり言えば、Ollamaは「手元で素早く試す」、vLLMは「本番で大勢にさばく」ための道具です。
Ollama:ローカル開発とプロトタイピングの最短ルート
Ollamaはモデルの取得・起動・実行をひとつのコマンド群で扱えるツールです。macOS / Windows / Linux で導入しやすく、NVIDIA(CUDA)・AMD(ROCm)・Apple Silicon(Metal)のいずれでも動きます。GPUがあれば7B〜8Bクラスの応答が体感で数秒に収まり、「まずローカルで試す」段階に最適です。
vLLM:本番運用や高負荷に強い推論基盤
vLLMは推論最適化(後述のPagedAttentionと継続的バッチング)により、同じGPUでも同時リクエストをさばくスループットを大きく稼げる推論サーバーです。長時間の連続稼働、多数の同時アクセス、複数アプリからの共通利用といった場面で本領を発揮します。
迷ったら、まずOllamaで選定と検証、要件が固まったらvLLMで本番。
かつては「OpenAI互換APIが使えるのはvLLMだけ」という整理がされがちでしたが、現在はどちらもOpenAI互換APIを提供します(Ollamaは http://localhost:11434/v1、vLLMも同様のエンドポイント)。そのため、既存アプリのコードは接続先URLとモデル名を差し替えるだけで、OllamaからvLLMへ段階的に移行できます。違いは「互換APIの有無」ではなく、後述する同時処理性能にあります。
02事前準備:ハードウェアとモデル選定
GPU / VRAM の目安
必要なリソースは「モデルサイズ」と「量子化(精度を少し落として軽量化する手法)」で決まります。あくまで目安ですが、次のイメージで見当をつけられます。
| モデル規模 | VRAMの目安と主な用途 |
|---|---|
| 7B〜8B | 量子化で6〜10GB程度から現実的。開発・チャット・PoC向け |
| 13B〜14B | 12〜24GBが安心。品質と速度のバランス型 |
| 30B以上 | 48GB級の単体、または複数GPU。本格的な推論基盤 |
CPUだけでも動かせますが、日常的に使う社内ツールならGPUのほうがストレスが少ないです。なお、ここで挙げた数値は構成や量子化方式で変わるため、最終的には自分の環境で実測して確かめてください。
モデルは「用途別」に割り切る
万能の一つを探すより、用途で割り切るほうが運用は安定します。チャット・要約には汎用の指示追従が得意なモデル、コード補助にはコードに強いモデル、社内QAでは(モデルより)RAGの検索設計が品質を左右します。日本語品質を重視するなら、日本語に強い派生モデルを、自分で用意した10〜30問程度の小さな評価セットで比べておくと後で迷いません。



