セルフホスト型 LLM ガイド: セットアップ、ツールとコスト比較(2026)

Dev.to / 2026/3/15

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • 企業のLLM支出が増加しており、モデルAPIのコストは2025年に84億ドルに達し、多くの企業が今年AI予算をさらに増やす計画です。
  • データプライバシーをAPI主導の導入における最大の障壁として挙げており、OpenAI、Anthropic、Googleなどの提供者の外部サーバにプロンプトが触れるためです。
  • セルフホスティングはデータを自社環境に保持し、外部の保持ポリシーや入力データのトレーニングを回避しますが、設定の複雑さと継続的な保守が増します。
  • ガイドはセルフホスティングが何を含むか、ハードウェアのサイズ、モデルの選択、デプロイツール、ユースケースに適合するかの判断方法、そして異なるアプローチの比較を解説します。

エンタープライズのLLMに対する支出は急増しています。モデルAPIのコストだけで2025年には84億ドルに2倍となり、企業の72%が今年AI予算をさらに増やす予定です。

しかし問題があります。Kongの2025年企業AIレポートによれば、組織の44%がデータプライバシーとセキュリティをLLM導入の最大の障壁として挙げています。OpenAI、Anthropic、またはGoogleへ送信されたすべてのプロンプトは外部サーバに触れます。機密データを扱う企業にとって、それは致命的な障壁です。

セルフホスティングがこれを解決します。LLMを自前のインフラ上で実行すると、データはあなたの環境を離れることはありません。第三者の保持ポリシーはありません。入力データのトレーニングもありません。コンプライアンスのグレーゾーンもありません。

トレードオフは複雑さです。LLMをセルフホストするには、適切なモデルの選択、ハードウェアのサイズ設定、デプロイツールの設定、そして時間とともにスタックを維持することが必要です。APIを呼び出すのと同じようにプラグアンドプレイではありません。

このガイドは手順を案内します。セルフホスティングが実際に何を含むか、どのハードウェアが必要か、検討すべきモデルとツール、そして用途に対してそれが意味を持つかどうかを判断する方法を学べます。

セルフホスト型LLMとは何か?

セルフホスト型LLMは、あなたが管理するインフラ上で動作する大規模言語モデルです。ローカルサーバ、オンプレミスのデータセンター、またはプライベートクラウド環境のいずれかです。OpenAIのAPIやAnthropicのサーバへリクエストを送る代わりに、推論をローカルで実行します。モデルの重みはあなたのハードウェア上にあり、あなたのプロンプトはネットワークを離れることはありません。

これは、モデルが提供者のインフラストラクチャ上で動作し、トークンごとに料金を支払うマネージドAPIの使用とは異なります。デプロイを代行してくれる完全管理型プラットフォームとも異なり、データは外部で処理される点も異なります。

アプローチ 実行場所 データプライバシー セットアップの難易度 コストモデル
API(OpenAI、Anthropic) プロバイダのクラウド データが外部サーバに触れる 最小限 トークンごとに料金
マネージドプラットフォーム プロバイダのクラウドまたはあなたのVPC 提供者によって異なる 低〜中程度 サブスクリプション型または従量課金
セルフホスト あなたのインフラストラクチャ 完全なコントロール、データはローカルのまま 高い ハードウェア+保守

セルフホスティングは、運用の複雑さという代償を払いながら、最大のコントロールとカスタマイズ性を提供します。

なぜLLMをセルフホストするのか?

組織がセルフホストを選ぶ主な5つの理由。

1. データプライバシーと主権

クラウドベースのAPIを使用すると、プロンプトは外部サーバへ送信されます。企業契約があっても、提供者の保持ポリシーとセキュリティ慣行を信頼することになります。セルフホスティングはすべてを自社の境界内に保ちます。医療、金融、法務などの業界では、これは任意ではなく、コンプライアンス要件です。

2. スケール時のコスト管理

API価格は低ボリュームの利用には適していますが、コストは急速に積み重なります。日々何百万ものトークンを処理している場合、セルフホスティングの方がコスト効果が高くなります。ハードウェアには一度支払い、リクエストごとではありません。予測可能で高ボリュームのワークロードを持つ組織は、初期投資後に顕著なコスト削減を経験することが多いです。

3. カスタマイズとファインチューニング

マネージドAPIは現状のモデルを提供します。セルフホスティングでは、専有データでファインチューニングを行い、モデルの挙動を調整し、特定のユースケースに最適化できます。あなたの特定のドメインにおいて、一般用途の巨大モデルを凌駕するような小さなモデルを訓練することも可能です。

4. ベンダーロックインの低減

ワークフローがOpenAIのAPIに依存していると、価格変更、レートリミット、サービス障害にさらされます。LlamaやMistralのようなオープンソースモデルを使ったセルフホスティングは、ポータビリティを提供します。スタックは自分でコントロールします。

5. レイテンシと可用性

ローカル推論は往復のネットワーク遅延を排除し、外部のアップタイムにも依存しません。リアルタイムアプリケーションやエアギャップ環境では、セルフホスティングが唯一現実的な選択肢となる場合があります。

ハードウェア要件

GPUメモリ(VRAM)は決定的な制約です。モデルは推論速度の妥当性のためにVRAMに収まる必要があります。収まらない場合、システムはCPU処理にフォールバックし、速度は10〜100倍遅くなります。

経験則: 4ビット量子化を使用する場合、10億パラメータあたり約0.5GBのVRAMが必要です。完全精度(FP16)の場合、その要件は2倍になります。

以下は、さまざまなハードウェア構成で扱える目安です:

モデルサイズ VRAM必要量(Q4) 代表的なGPU 典型的な速度
7–8B 4–6GB RTX 3060、RTX 4060 30–50トークン/秒
13B 8–10GB RTX 4060 Ti 16GB 20–35トークン/秒
32–34B 16–20GB RTX 4090、RTX 3090 12–20トークン/秒
70B 35–40GB デュアル RTX 4090、A100 7–12トークン/秒

GPUを超える要件:

  • システムRAM: 最低16GB、推奨は32GB。RAMはモデルのロードとVRAM不足時のオーバーフローを処理します。
  • ストレージ: NVMe SSDは必須。量子化済みのLlama 3 70Bモデルは35GB以上です。回転ディスクはロード時間を長くします。
  • CPU: AVX-512を搭載した現代的なプロセッサはGPUなしで推論を実行できますが、1秒あたりのトークン数はおおよそ1〜9程度を見込んでください。テストには適していますが、本番運用には実用的ではありません。

量子化はすべてを変える。 完全精度で140GBを必要とする70Bモデルは、4ビット量子化で約35GBに縮小され、品質の損失は最小限、VRAMの節約は莫大です。 llama.cpp や Ollama のようなツールは自動的に量子化を適用します。

ほとんどのチームにとって、単一のRTX 4090(24GB)で量子化モデルを動かすことが、能力とコストの間のバランスの良いポイントです。70B以上のモデルを扱うエンタープライズ展開では、通常、マルチGPU構成やA100/H100ハードウェアを搭載したクラウドインスタンスが必要です。

適切なモデルの選択

すべてのオープンソースモデルが同じではありません。適切な選択は、ユースケース、ハードウェア、パフォーマンス要件によって決まります。

タスクに合わせてモデルを選ぶ:

  • 一般的なチャットと推論: Llama 3.3 70B と Qwen 2.5 72B がトップを占めています。どちらも長いコンテキストをうまく扱い、クリーンで制御可能な出力を生成します。
  • コーディング: DeepSeek Coder V2 と Qwen2.5-Coder はこの分野を専門としています。HumanEvalのスコアが高く、過剰なプロンプトを使わずにバグを見つけます。
  • 多言語: Qwenモデルは標準で29言語以上をサポートしており、グローバルチームに有用です。
  • リソース制約のある展開: Gemma 2(9B)とMistral Small 3は、控えめなハードウェアでもその実力を発揮します。

ハードウェアに合わせてモデルを選ぶ:

お使いのGPU モデルサイズ (Q4) おすすめモデル
8–12GBのVRAM 7–13B Llama 3.2 8B, Mistral 7B, Qwen 2.5 7B
16GBのVRAM 13–32B Qwen 2.5 32B, Gemma 2 27B
24GBのVRAM 最大40B DeepSeek-V2 (21B active), Qwen 2.5 32B
48GB+のVRAM 70B+ Llama 3.3 70B, Qwen 2.5 72B

ライセンスの重要性。 最も人気のあるモデルは商用利用を許可する寛容なライセンス(Apache 2.0、MIT)を採用しており、料金は発生しません。Llama、Qwen、DeepSeek、Gemma はいずれも商用デプロイを許可しています。実運用前に各モデルの許容使用ポリシーを確認してください。

これらのモデルはすべて Hugging Face から入手可能で、Ollama や vLLM などのツールと連携します。ハードウェアに無理のない小さめのモデルから始め、実際のワークロードと比較してベンチマークを取り、より高度な機能が必要な場合だけスケールアップします。

セルフホスティングのためのツール

適切な推論フレームワークを選ぶことは、セルフホスティングした LLM がスムーズに動作するか、運用上の頭痛の原因になるかを決定します。各ツールは、単純さ、スループット、柔軟性、またはマネージドインフラストラクチャといったさまざまな優先事項に最適化されています。

実際に重要なのは、これです。

ツール 適用に最適な用途 スループット セットアップの複雑さ OpenAI API互換性
Ollama 開発・個人利用向け ~41 TPS 1 コマンド
vLLM 本番環境、同時実行性の高い用途 ~793 TPS 中程度
LocalAI マルチモーダル、APIハブ バックエンドによって異なる Dockerベース
LM Studio デスクトップでの実験向け 個人利用に適しています GUIインストール
Prem AI エンタープライズ、マネージド自己ホスティング 最適化済み 完全に管理済み
llama.cpp エッジ、CPUのみ ~80 TPS(CPU) 手動 ラッパー経由

1. Ollama: 出発点

Ollama は「LLMの Docker」です。1つのコマンドでローカルにモデルを取得して実行します。内部で llama.cpp を隠れた部分でまとめ、量子化を自動的に処理し、設定不要で OpenAI 互換の API を公開します。

bash

# 1分未満でインストールして実行

curl -fsSL https://ollama.com/install.sh | sh

ollama run llama3.2:8b

Ollama は開発ワークフロー、プライバシー重視の個人利用、オフライン環境での利用に卓越しています。自動ハードウェア検出で macOS、Linux、Windows をサポートします。

トレードオフ: Ollama はデフォルトで同時リクエストを約4件に制限します。Red Hat のベンチマークでは、負荷下で約41トークン/秒にピークします。単一ユーザーには適していますが、生産トラフィックへスケールするには大幅なチューニングが必要です。

Ollamaを使うべき場合: プロトタイピング中、パーソナルアシスタントを構築中、または5分で動作するものが必要な場合。

2. vLLM: 本番環境向けの性能

vLLM はスループットを重視して設計されています。PagedAttention アルゴリズムはメモリ断片化を40%以上低減し、より大きなバッチサイズと飛躍的に高い同時実行性を可能にします。ベンチマークでは、vLLM が 793 TPS に達するのに対し、Ollama は 41 TPS で、スケール時には19倍の差が生じます。

同時負荷下では性能差がさらに拡大します。128人の同時ユーザー時には、vLLM は P99 レイテンシを100ms未満に保ちますが、Ollama のレイテンシは673msに跳ね上がります。顧客向けアプリケーションや複数のユーザーを持つ内部ツールを提供する場合、この差は重要です。

vLLM はより多くのセットアップ、CUDA を搭載した NVIDIA GPU、適切なドライバ構成、マルチGPU展開のためのテンソル並列性の理解を必要とします。しかし、その複雑さがエンタープライズ級の提供機能を手に入れることにつながります。

vLLMを使うべき場合: 本番ワークロードを実行し、複数の同時ユーザーを対応させる、または厳格なレイテンシー SLA が必要な場合。

3. LocalAI: ユニバーサルAPIハブ

LocalAI は異なるアプローチを取ります。テキスト、画像、音声、埋め込みを1つのエンドポイントで処理する、ドロップインの OpenAI API 代替です。複数のバックエンドへリクエストをルーティングできるミドルウェアと考えてください。

docker run -p 8080:8080 --gpus all localai/localai:latest-gpu-nvidia-cuda-12

真の力はオーケストレーションにあります。高スループットのテキストリクエストを vLLM のインスタンスへルーティングしつつ、画像生成をローカルで保つことができます。すべて1つの API で。LocalAI は、単一サーバーのデプロイを超えるチームのために、複数ノードにまたがる分散推論もサポートします。

LocalAIを使うべき場合: マルチモーダル機能が必要、複数モデルの統一 API を望む、または既存アプリケーションの OpenAI API 互換性が必要な場合。

4. Prem AI: エンタープライズ向けのマネージド自己ホスティング

現実はこうです。多くのチームには、GPUインフラを管理し、推論パイプラインを最適化し、モデル更新を扱う専任の MLOps エンジニアがいません。DIY アプローチは実験には有効ですが、生産規模になると専任の仕事になります。

Prem AI はこのギャップを埋めます。Prem が運用の複雑さを担当する一方で、あなたのインフラ、クラウド、サーバー、データセンター上で動作する、完全にマネージドされた自己ホスティングプラットフォームです。

What makes it different:

  • データ保持ゼロ。 あなたのプロンプトと出力は外部サーバーに触れません。推論パイプライン全体があなたの環境内で実行されます。
  • スイス法域。 GDPR、HIPAA、財務規制など厳格なコンプライアンス要件を持つチームにとって、Prem の法的構造は追加のデータ保護層を提供します。
  • 組み込みのファインチューニング。 専有データでモデルをカスタマイズする必要がありますか? Prem の ファインチューニングパイプライン が直接統合されており、別のツールは不要です。
  • 推論の最適化。 vLLM の手動設定、CUDAドライバの管理、メモリ問題のデバッグを行わずに、生産レベルの提供を得られます。

Prem API は OpenAI 互換性があるため、既存のアプリケーションはコード変更なしで動作します。チームは通常、 セルフホスティングのドキュメント または デモを予約 を通じて、カスタム企業設定を行います。

Prem AI を使うべき場合: 自身でインフラを構築・維持せず、プライバシー、コスト管理、カスタマイズ性といったセルフホスティングの恩恵を得たい場合。規制産業、エンタープライズ展開、機微データを大規模に処理するチームに最適です。

5. LM Studio: GUI優先の体験

LM Studio は、モデルのダウンロード、設定、実行を行うための洗練されたデスクトップインターフェースを提供します。コマンドラインは不要です。ほかのツールとの統合のためのヘッドレスサーバーモードも備えています。

専用GPUを搭載していないマシンでは、Vulkan のオフロード機能のおかげで LM Studio が Ollama より高い性能を発揮することが多いです。統合グラフィックスや Apple Silicon に特に効果的です。

LM Studioを使用する場合: GUIを好む、さまざまなモデルを迅速に試したい、または消費者向けハードウェアで最適化されたパフォーマンスが必要な場合。

6. llama.cpp: 最大の移植性

llama.cppは、これらのツールの背後にある基盤となるエンジンです。直接使用すると依存関係がまったくなく、あらゆる環境で動作します。ノートパソコン、ARMデバイス、Raspberry Piでも動作します。エッジコンピューティングとリソース制約のある環境に対して堅牢です。

トレードオフは手動設定です。モデル変換、量子化、APIラッパーの作成を自分で行います。

llama.cppを使用する場合: エッジデバイスへデプロイする場合、CPUのみ推論が必要な場合、または推論スタックを最大限に制御したい場合。

どのツールを選ぶべきですか?

選択は、デプロイの旅路のどの地点にいるかによって決まります。

  1. 実験中? Ollama または LM Studio から始めます。数分でモデルを動かせます。
  2. 本番システムを構築中? スループットのためには vLLM へ、マルチモーダルのニーズには LocalAI へ移行します。
  3. コンプライアンス要件を備えたエンタープライズ? DIY段階を完全にスキップします。 Prem AI は、インフラストラクチャを管理済みの状態でセルフホスティングの利点を提供します。

共通パターン: チームは Ollama でプロトタイプを作成し、本番で想定よりもエンジニアリングが必要になることに気づき、専用の MLOps に投資するか、Prem のようなインフラ層を扱うマネージドソリューションへ移行します。

基本セットアップのウォークスルー

自分でホストする LLM を動かしてみましょう。このウォークスルーは Ollama と Open WebUI を使用します。自分のハードウェア上で、ゼロから ChatGPT 風のインターフェースを動作させる最速の道です。

前提条件

  • Docker Desktop をインストール済み (こちらからダウンロード)
  • 8GB+ RAM、小型モデルには(16GB+ 推奨)
  • GPU は任意 だが、速度を大幅に向上させる

ステップ1: Ollamaを起動

この単一のコマンドを実行して、Ollama を Docker コンテナ内で起動します:

docker run -d \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

ボリュームマッピング (-v ollama:/root/.ollama) は、コンテナ再起動間でダウンロード済みモデルを保持します。これがないと、毎回モデルを再ダウンロードしてしまいます。

GPU アクセラレーション(NVIDIA)の場合:

docker run -d \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --gpus all \
  --name ollama \
  ollama/ollama
, 

実行中か確認:

curl http://localhost:11434
# Should return: Ollama is running

ステップ2: モデルを取得

コンテナ内でモデルをダウンロードします:

docker exec -it ollama ollama pull llama3.2:3b

この3Bパラメータのモデルは約2GBで、ほとんどのハードウェアで動作します。より強力な応答を得たい場合(16GB+ RAM がある場合)は、次を試してください:

docker exec -it ollama ollama pull llama3.1:8b

直接テストします:

docker exec -it ollama ollama run llama3.2:3b "What is self-hosting?"

ステップ3: ウェブインターフェイスを追加

Open WebUI は慣れ親しんだチャットインターフェイスを提供します。Ollama と併用して実行します:

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

ブラウザで http://localhost:3000 を開きます。 アカウントを作成します(ローカルに保存されます)、モデルを選択してチャットを開始します。

Docker Compose(推奨)

管理を容易にするため、次の docker-compose.yml を使用します:

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
  deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    restart: unless-stopped
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - open-webui_data:/app/backend/data
    depends_on:
      - ollama
    restart: unless-stopped
volumes:
  ollama_data:
  open-webui_data:

すべて起動するには:

docker compose up -d

ステップ4: APIをテスト

Ollama は OpenAI 互換の API を公開しています。curl でテストします:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2:3b",
  "prompt": "Explain Docker in one sentence",
  "stream": false
}'

または既存のアプリケーションにドロップイン置換として OpenAI互換のエンドポイントを使用します:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [{"role": "user", "content": "Hello!"}]
  }

What You've Built:

  • ハードウェア上だけで動作するローカルLLM
  • localhost:3000 のウェブインターフェイス
  • localhost:11434 の OpenAI互換 API
  • データはネットワークを離れることはありません

あなたのプロンプト、出力、および会話履歴はマシン上にとどまります。APIキーは不要、使用状況の追跡もなく、繰り返し支払うコストもありません。

次のステップ

  • より大きなモデルを試す: Ollama pull qwen2.5:14b または Ollama pull deepseek-coder:6.7b を試してください
  • アプリケーションへの接続: いずれ OpenAI互換ツールを http://localhost:11434 に指す
  • RAG の追加: PrivateGPT や AnythingLLM を使ってあなたのドキュメントとチャットします

複数ユーザーでの本番デプロイメント、コンプライアンス要件、またはエンタープライズグレードのインフラストラクチャの場合、Prem AIのセルフホスティングプラットフォーム がスケーリング、最適化、セキュリティを処理し、すべてをあなたのインフラに維持します。

セルフホスティングが意味を成すのはいつですか?

セルフホスティングは API よりも普遍的に優れているわけではありません。初期の複雑さとハードウェアコストというトレードオフであり、長期的な節約と制御を得るかどうかの判断です。以下の判断基準を参考にしてください。

セルフホスティングが安くなる転換点は、トークン量に依存します。業界分析では、ほとんどの構成で閾値はおおむね 1日あたり200万トークン です。

例の計算:

70% の利用率で、単一の H100 スポットインスタンス上で動作する7Bモデルは、年間おおよそ $10,000 の費用がかかります。1 秒あたり 400 リクエスト、各リクエストにつき 300 トークンの場合、約 $0.013/1,000 トークン、GPT-4o Mini は百万あたり $0.15/$0.60(入力/出力)と比較されます。

日次トークン量 GPT-4o Mini(月額) セルフホスト型 7B(月額) 勝者
50万トークン 約$15 約$850 API
200万トークン 約$60 約$850 ほぼ互角
1000万トークン 約$300 約$850 セルフホスト型
5000万トークン 約$1,500 約$850 セルフホスト型(大幅に)

セルフホスティングの有利さがさらに拡がる要因として、次を考慮すると:

  • 複数のアプリケーションが同じインフラを共有する
  • ファインチューニング済みモデル(APIのファインチューニング費用はすぐに積み上がる)
  • API予算を超えるような予測不能な利用急増

セルフホスティングが有利になるとき

1. 大量かつ予測可能なワークロード。

日々、顧客サポート、文書分析、コンテンツ生成などで数百万トークンを処理している場合、セルフホスティングは6〜12か月以内に投資回収できます。あるフィンテック企業は、GPT-4o Miniの月額支出を$47,000からハイブリッドのセルフホスト型アプローチで$8,000へ削減し、83%のコスト削減を実現しました。

2. 厳格なコンプライアンス要件。

HIPAA、PCI-DSS、GDPR、SOC 2 の監査は、データが第三者のAPIを経由する場合、複雑になります。セルフホスティングはPHI、決済データ、PIIを自分の管理下の環境内に保ちます。ある遠隔医療クライアントは、チャットトリアージをセルフホスト型LLMへ移すことで月額を$48kから$32kに削減し、コンプライアンス体制を簡素化しました。

3. エアギャップまたはオフライン環境。

防衛請負業者、政府機関、機密データを扱う組織は、外部サーバへプロンプトを送ることがほとんどできません。セルフホスティングが唯一の選択肢です。

4. プロンプトエンジニアリングを超えたカスタマイズ。

独自データでファインチューニングを行う必要がある場合、アーキテクチャレベルでモデルの挙動を変更する場合、またはAPI経由で利用できない特殊なモデルを実行する場合、セルフホスティングは完全な制御を提供します。API提供者はカスタマイズできる範囲を制限します。

5. レイテンシー重視のアプリケーション。 ローカル推論はネットワーク往復を排除します。リアルタイムのアプリケーション、ライブコーディングアシスタント、取引システム、インタラクティブゲームでは、リクエストあたりの50–200msの節約がUXを顕著に改善します。

APIが有利になるとき?

1. 低いまたは予測不能なボリューム。

日次で100万トークン未満を処理している場合、APIコストはインフラを維持する費用より低くなる可能性が高いです。運用のオーバーヘッドは価値がありません。

2. 迅速なプロトタイピング。

何を作るべきかをまだ考えている段階では、APIの柔軟性によりハードウェアの変更なしでモデルを切り替えられます。ユースケースを検証した後でインフラを固定してください。

3. 最先端モデルへのアクセス。

GPT-4、Claude Opus、Gemini Ultra はセルフホスティングでは利用できません。アプリケーションが本当に最前線レベルの推論を必要とする場合、APIが唯一の道です。

4. MLOps能力なし。

セルフホスティングには、GPUドライバの管理、推論パフォーマンスの監視、モデル更新の処理、深夜2時のCUDAエラーのトラブルシュートを担当する人が必要です。チームにその専門知識がない場合、隠れたコストは急速に積み上がります。

ハイブリッドアプローチ [コスト効率]

Most mature organizations land on a hybrid strategy:

  • 単純なクエリをルーティングする(分類、抽出、FAQ回答)を小さなセルフホスト型モデル(7B–13B)へ
  • 複雑な推論タスクにはAPI呼び出しを温存する。実際に大きなモデルが必要な場合のみ
  • 機微データにはセルフホストを使用、機微でないワークロードにはAPIを使用

このアプローチは、高ボリュームのコモディティタスクでのコスト削減を捉えつつ、必要に応じてフロンティア機能へのアクセスを保持します。チームは、出力品質を損なうことなく、全APIアプローチと比較して40–70%のコスト削減を報告しています。

意思決定プロセスを簡素化するために、次の5つの質問をしてください:

  1. Volume: Are you processing 2M+ tokens daily? → Self-hosting becomes cost-competitive
  2. Compliance: Does your data require on-premises processing? → Self-hosting may be mandatory
  3. Customization: Do you need fine-tuning or model modifications? → Self-hosting gives full control
  4. Team: Do you have MLOps capacity to maintain infrastructure? → Required for DIY self-hosting
  5. Latency: Is sub-100ms response time critical? → Self-hosting eliminates network delays

If you answered yes to questions 1–3 but no to question 4, managed self-hosting platforms like Prem AI bridge the gap, you get the benefits of self-hosting (data control, cost efficiency, customization) without building the infrastructure team.

Book a demo to model the economics for your specific workload.

FAQ

1. What is self-hosting LLM?

Self-hosting an LLM means running a large language model on your own infrastructure, your servers, your cloud account, or your local machine, instead of calling a third-party API like OpenAI or Anthropic. The model weights, inference engine, and all processing happen within your controlled environment. Your prompts and outputs never leave your network, giving you complete data sovereignty and eliminating per-token API costs.

2. Is it worth self-hosting LLM?

It depends on three factors: volume, compliance, and customization needs. Self-hosting becomes cost-effective when you process over 2 million tokens daily, below that threshold, API costs are typically lower than infrastructure overhead. It's worth it if you handle sensitive data requiring on-premises processing (healthcare, finance, legal) or need fine-tuning capabilities that APIs limit. For low-volume prototyping or access to frontier models like GPT-4 or Claude Opus, APIs remain the better choice.

3. What is the most popular self-hosted LLM?

Llama 3.3 70B と Qwen 2.5 72B は現在、汎用用途で先頭を走っています。Llama はエコシステムのサポートで優勢で、ほぼすべてのツール(Ollama、vLLM、LM Studio)はまずそれに最適化されます。Qwen は29以上の言語をサポートする多言語タスクに優れています。特にコーディングでは、DeepSeek Coder V2 と Qwen2.5-Coder がトップの選択肢です。小規模なチームは、能力とハードウェア要件の最良のバランスを取るために、Mistral 7B や Llama 3.2 8B をよく実行します。

4. SLM は LLM より優れていますか?

小規模言語モデル(SLM)である Phi-4、Gemma 2 9B、Qwen3-0.6B は“より良い”というわけではなく、異なる制約に合わせて最適化されています。SLM は控えめなハードウェア(8GB VRAM、場合によってはCPUのみ)で動作し、応答が速く、運用コストも低いです。分類、抽出、シンプルなQ&Aのような焦点を絞ったタスクをうまく処理します。LLM(70B以上)はより深い推論、指示の従い方の向上、よりニュアンスのある出力を提供しますが、相応のGPUパワーを必要とします。多くのプロダクションシステムは両方を使用します:大容量の単純なクエリにはSLMs、複雑なタスクにはLLMsを。

5. 自己ホスト型 LLM は安いですか?

規模が大きくなるほど、はい、かなり安くなります。H100上の自己ホスト7Bモデルは、1,000トークンあたり約0.013ドルで、GPT-4o miniの0.15–0.60ドルと比較します。あるフィンテック企業は、ハイブリッド自己ホスティングへ移行することで、月間AI支出を47,000ドルから8,000ドルへ削減しました(83%の削減)。ただし、日次で約200万トークン未満の場合、アイドル状態のインフラに対する支払いがないため、APIコストの方が低くなります。自己ホスティングには隠れたコストもあります:MLOpsの時間、GPUの保守、トラブルシューティング。総所有コストを、トークン単価だけでなく、すべてを考慮してください。

6. LLM には 16GB RAM で足りますか?

システムRAMとしては、7Bモデルを Ollama のようなツールで動かすには16GBが最小です。動作しますが、すぐに限界に達します。より大きなコンテキストウィンドウや大きなモデルには余裕が必要です。7B–13Bモデルを快適に運用する実用的な推奨は32GBです。GPU VRAM(より重要です)については、16GBで13Bモデルを4ビット量子化で、または7Bモデルをより高精度で動かすことができます。RTX 4060 Ti 16GB が、趣味の人や小規模チームにとって理想的な選択です。

7. LLM は RAM と GPU のどちらが良いですか?

速度の点ではGPUが決定的に勝っています。LLM推論はメモリ帯域幅に支配され、トランスフォーマーが要求する重みの繰り返しフェッチのため、VRAMはシステムRAMより10〜100倍速く動作します。完全にGPU VRAMにロードされたモデルは30〜50トークン/秒を生成しますが、同じモデルをシステムRAMへオフロードすると1〜5トークン/秒に低下します。CPUのみの推論はテストには機能しますが、実運用には現実的ではありません。まずGPU VRAM容量を優先し、次にモデルのロードとコンテキスト管理を処理するのに十分なシステムRAM(32GB以上)を確保してください。

8. RAM 使用率が70%は高すぎますか?

LLM推論時のシステムRAMにおいて、70% の使用率は問題ありませんし、むしろ想定内です。モデルはメモリにロードされ、ディスクスワップを避けるために完全に常駐させておきたいです。問題は85–90%を超えたときに始まり、OSがディスクへページングを始め、性能を破壊します。GPU VRAMについては、70%の利用は実際には低く、キャパシティを活かせていません。モデルサイズやコンテキストウィンドウを最大化するには、VRAM使用を80–90%にすることを目指してください。特定の割合を狙うよりも、OOM(アウトオブメモリ)エラーを監視してください。

9. 機械学習には64GB RAMは過剰ですか?

真剣なLLM作業にはそうではありません。64GBのシステムRAMは、CPUオフロードを伴う70B+モデルを快適に動かし、大きなコンテキストウィンドウを処理し、複数のモデルを同時に実行できます。大規模モデルを扱うチームやファインチューニングを行う場合の推奨最小要件です。趣味で7B–13Bモデルを動かす場合は32GBで十分です。生産推論サーバーやトレーニングワークロードには128GB以上が一般的です。「オーバーキル」は用途次第ですが、RAMはGPUコストと比べて安価であり、余裕を持つことでイライラするボトルネックを防げます。