OpenClaw での Ollama モデル向け GPU 最適化ガイド

Dev.to / 2026/4/15

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • この記事では、OpenClaw エージェントランタイムが Ollama をローカルで使用する場合、GPU の性能は主に VRAM 容量によって制約されると説明しています。これは、エージェントがツールの状態やマルチターンのコンテキストをモデルのコンテキストウィンドウ内に保持する必要があるためです。
  • OpenClaw のセッションでは、アクティブなコンテキストが 20〜60K トークン必要になることが多く、通常のチャットアプリに比べて桁違いに VRAM への負荷が高くなります。その結果、最適化を行わないと不安定さやコンテキストの脱落が起こりやすくなります。
  • 本ガイドは、一般的な Ollama のセットアップ手順ではなく、OpenClaw 向けの実用的な GPU 最適化に関する意思決定の集まりとして位置づけられています。
  • まだモデルを選んでいない読者は、まず「OpenClaw に最適な Ollama モデル」ガイドを参照すべきだと提案しています。モデルの選択によって、GPU/VRAM のトレードオフが変わるためです。
  • 全体としての要点は、GPU/VRAM の最適化が、実行できるモデルの種類、維持できるコンテキストウィンドウの大きさ、負荷時にエージェントがどれだけ応答性良く感じられるかに直接影響するという点です。

もともと Remote OpenClaw に掲載されました。

OpenClaw の Ollama モデル向け GPU 最適化ガイド

マーケットプレイス

OpenClaw 向けの無料スキルと AI パーソナ — マーケットプレイスを閲覧。

マーケットプレイスを閲覧 →

コミュニティに参加

1k+ の OpenClaw オペレーターが、デプロイガイド、セキュリティ設定、ワークフローの自動化を共有しています。

コミュニティに参加 →

OpenClaw のために Ollama モデルをローカルで動かしている場合、GPU がボトルネックになっており、それがすべてを決めます。どのモデルを実行できるか、どれくらいのコンテキストを保持できるか、エージェントの応答がどれくらい速いか、そして負荷がかかったときにシステムが安定して動き続けるかどうかです。多くのオペレーターは Ollama をセットアップしてモデルをプルするだけで、GPU の最適化については考えません。すると、なぜエージェントが遅く感じるのか、なぜセッション途中でコンテキストが落ち始めるのかといった疑問が出てきます。

このガイドでは、OpenClaw に特に関係する、実践的な GPU 最適化の意思決定を扱います。まだモデルを選んでいない場合は、まず OpenClaw に最適な Ollama モデル のガイドから始めてください。

なぜ OpenClaw に GPU 最適化が重要なのか

OpenClaw は薄いチャットボットではありません。ツールの状態、メモリのコンテキスト、システム指示、そしてマルチターンの会話履歴を同時に維持するエージェント実行環境です。これらすべての情報はモデルのコンテキストウィンドウ上に存在し、そのコンテキストウィンドウは VRAM に置かれています。

一般的なチャットアプリでは、1 回のやり取りに 2〜4K トークンを使うかもしれません。OpenClaw のエージェントセッションでは、アクティブなコンテキストとして 20〜60K トークンを日常的に抱えます。これは、カジュアルなモデル利用と比べて VRAM の圧力が 10〜15 倍違うということです。

つまり、OpenClaw 向けの GPU 最適化の本質は VRAM 管理にあります。トークン生成のための生の計算速度は重要ですが、そもそも必要なコンテキストを持ったままエージェントが動作できるかどうかは、VRAM 容量によって決まります。

モデル別・コンテキスト別の VRAM 要件

以下は、よく使われる OpenClaw に適した Ollama モデルの実用的な VRAM 要件です。これらの数値は、最も一般的なデフォルトである Q4_K_M の量子化を反映しています。

モデル

パラメータ

Q4_K_M サイズ

4K ctx 時の VRAM

32K ctx 時の VRAM

64K ctx 時の VRAM

qwen3.5:9b

9B

~6.6GB

~8GB

~12GB

~16GB

glm-4.7-flash

30B(3B アクティブ)

~18GB

~20GB

~24GB

~28GB

qwen3-coder:30b

30B(3.3B アクティブ)

~18GB

~20GB

~24GB

~28GB

qwen3.5:27b

27B

~17GB

~19GB

~23GB

~27GB

この表からの重要な洞察は、モデルの重みが VRAM の話の一部にすぎないということです。コンテキストウィンドウがかなりの VRAM オーバーヘッドを追加し、そのオーバーヘッドはコンテキスト長に対して線形に増えていきます。4K コンテキストなら十分に収まるモデルでも、同じ GPU で 64K コンテキストでは収まらない可能性があります。

VPS やクラウド GPU の選択肢については、OpenClaw に最適な VPS のガイドを参照してください。

コンテキストウィンドウと VRAM の割り当て

Ollama は、利用可能な VRAM に基づいて自動のコンテキストデフォルトを使用します:

  • VRAM が 24 GiB 未満の場合: デフォルトは 4K コンテキスト
  • VRAM が 24〜48 GiB の場合: デフォルトは 32K コンテキスト
  • VRAM が 48 GiB 以上の場合: デフォルトは 256K コンテキスト

OpenClaw では、これらのデフォルトが正しいことはほとんどありません。Ollama 自身のドキュメントでは、エージェントのワークロードには少なくとも 64K コンテキストが推奨されています。16GB の GPU を使っている場合、Ollama は 4K コンテキストをデフォルトにしますが、これは OpenClaw を適切に動作させるにはあまりにも低すぎます。

デフォルトを明示的に上書きしてください。

# Ollama サーバーのコンテキスト長を設定
OLLAMA_CONTEXT_LENGTH=64000 ollama serve

# アクティブなコンテキスト割り当てを確認
ollama ps

トレードオフは単純です。コンテキストを大きくするとより多くの VRAM を使うため、モデル本体のための余地が減ります。VRAM にモデルの重みと 64K コンテキストの両方を収められない場合、選択肢は 3 つです:

  1. より小さいモデルに落とす(例:qwen3.5:27b の代わりに qwen3.5:9b)
  2. より攻めた量子化を使う(Q8 の代わりに Q4)
  3. 部分的な CPU オフロードを受け入れる(大幅に遅くなるが動作はする)

量子化レベルと、それぞれを使うタイミング

量子化は、より大きいモデルをより少ない VRAM に収めるために、モデルの精度を下げます。Ollama はモデルをプルするときに量子化を自動で扱いますが、トレードオフを理解しておくとより良い判断ができるようになります。

量子化

重みあたりのビット数

FP16 に対する VRAM 削減率

品質への影響

向いている用途

FP16

16

基準

なし

最大品質、十分な VRAM

Q8_0

8

~50%

最小

VRAM が大きく、品質に敏感なタスク

Q5_K_M

~5.5

~65%

24GB GPU にとって良いバランス

Q4_K_M

~4.5

~72%

多くのオペレーターにとって最適なデフォルト

Q3_K_M

~3.5

~78%

目に見える

小さな GPU に大きなモデルを押し込む

Q2_K

~2.5

~84%

大きい

最後の手段のみ

OpenClaw に関して言えば、特に Q4_K_M が多くのオペレーターにとっての「ちょうど良い場所(最適点)」です。ツール呼び出し、コード生成、指示追従のようなエージェントタスクは、創作的な文章作成やニュアンスのある推論よりも量子化の影響を受けにくいです。一般的な OpenClaw のワークフローでは、Q8 から Q4 に落としても実用上のパフォーマンスをほとんど失いません。

Q4 未満では、品質の劣化がはっきりと見えてきます。Q3 は単純なタスクなら動きますが、多段の推論で失敗し始めます。Q2 は、いかなる状況でも OpenClaw には推奨されません。

# 特定の量子化レベルをプル
ollama pull qwen3.5:9b-q4_K_M
ollama pull qwen3.5:9b-q8_0

# どの量子化で動かしているか確認
ollama show qwen3.5:9b --modelfile

マーケットプレイス

OpenClaw 向けの無料スキルと AI パーソナ — マーケットプレイスを閲覧。

マーケットプレイスを閲覧 →

統計: Q4\_K\_M 最良の量子化; VRAM 使用量 50% 削減 保存; VRAM の主要な制約; nvidia-smi モニタツール

把握しておきたい重要な数値

バッチサイズと同時リクエスト数

単一の OpenClaw インスタンスを実行する場合、バッチサイズはほとんど気にする必要がありません。1 回の応答を一度に生成しているだけだからです。しかし複数のエージェントを動かしている場合、または OpenClaw が同時タスクを処理している場合は、バッチ設定がスループットに大きく影響します。

Ollama のデフォルトのバッチサイズは、単一ユーザーのシナリオでは機能します。同時利用の場合:

  • 並列リクエスト: Ollama は同じモデルに対して複数の同時リクエストを処理できますが、アクティブな各リクエストはコンテキストのために追加の VRAM を消費します。64K コンテキストのリクエストを 2 件同時に行うと、コンテキスト VRAM のオーバーヘッドが概ね 2 倍になります。
  • モデルの読み込み: Ollama は最近使ったモデルを VRAM に保持します。モデルを頻繁に切り替えると、読み込みとアンロードによってレイテンシが増えます。頻繁な再読み込みを避けるため、1〜2 個のモデルに絞って運用してください。
  • キュー動作: VRAM がいっぱいになると、追加のリクエストは前の処理が完了するまでキューに入ります。クラッシュするよりはましですが、ピーク時にはエージェントが停止したようになります。

多くの単一オペレーターの OpenClaw 配置では、デフォルトのバッチ設定で問題ありません。並行ワークロードでスループットに問題が見える場合に限って、ここを最適化してください。

予算別のハードウェア推奨

予算帯: $200-400(中古相場)

RTX 3060 12GB または RTX 2080 Ti 11GB。 これらの GPU は、中程度のコンテキストで Q4 量子化した 7-9B モデルを扱えます。大きいモデルでは 64K コンテキストの推奨に到達できませんが、OpenRouter へのフォールバックと組み合わせた、軽めの OpenClaw 利用なら動作します。

ミドル帯: $500-900(中古相場)

RTX 3090 24GB または RTX 4070 Ti Super 16GB。 RTX 3090 は、現時点でローカル推論向けの最良のコスパ GPU です。24GB の VRAM は、Q4 で 32-64K のコンテキストが必要な多くの OpenClaw 適合モデルに収まります。真剣にローカル運用する人にとっての最適解です。

ハイエンド帯: $1000-2000

RTX 4090 24GB または デュアル RTX 3090。 4090 は、24GB の VRAM と 3090 よりも大幅に高速な推論により、最も優れた単体 GPU 性能を提供します。デュアル 3090 なら合計 48GB の VRAM が得られるため、より大きいモデルや高いコンテキストウィンドウに対応できますが、マルチ GPU 推論は複雑になります。

Apple Silicon

M2 Pro/Max または M3 Pro/Max。 Apple Silicon は CPU と GPU 間でメモリを共有するため、構成に応じて事実上の「VRAM」が 32〜96GB 相当になります。Ollama には Metal のネイティブ対応があります。96GB の統合メモリを備えた M3 Max なら、非常に大きなモデルでもフルのコンテキストで実行できます。OpenClaw のセットアップガイドでは、Apple Silicon は最も実用的なローカル選択肢の 1 つです。

GPU 使用状況の監視とトラブルシューティング

OpenClaw に関する最も一般的な GPU 系の問題は「見えない」ことです。モデルは動いているように見えても、コンテキストウィンドウが VRAM に収まるようにこっそり切り詰められてしまい、結果が良くないのです。必ず実際の割り当てを確認してください。

# NVIDIA GPU のメモリ使用量をリアルタイムで確認
nvidia-smi -l 1

# Ollama が読み込んだ内容と、そのコンテキスト割り当てを確認
ollama ps

# モデルが GPU を使っているか、CPU にフォールバックしているかを確認
ollama ps | grep -i "gpu"\|cpu

よくある問題と対処法

  • モデルが GPU ではなく CPU で動いている: NVIDIA ドライバが最新で、CUDA が利用可能であることを確認してください。ドライバの更新後は Ollama サーバを再起動します。
  • メモリ不足(Out of memory)エラー: まずはより小さい量子化レベルに落としてください。それでも足りなければ、より小さいモデルに切り替えます。最後の手段としてコンテキストウィンドウを減らしますが、その場合は OpenClaw のパフォーマンスに直接影響する点に注意してください。
  • トークン生成が遅い: 1〜5 トークン/秒 程度しか出ていない場合、モデルが部分的に CPU にオフロードされている可能性があります。VRAM 使用量を確認してください。もし 100% になっているなら、一部の層が CPU 上で動作しています。VRAM を空けるか、より小さいモデルを使ってください。
  • セッション途中でコンテキストが切り詰められる: VRAM が増えていくコンテキストを保持できないときに起こります。長いセッションでは VRAM を監視してください。上限に達すると、エージェントはそれまでのコンテキストをこっそり失い始めます。

よくある質問(FAQ)

OpenClaw のモデルでどれくらいの VRAM が必要ですか?

推奨の 64K コンテキストウィンドウであれば、qwen3.5:9b のような小型モデルでは少なくとも 16GB の VRAM が必要で、glm-4.7-flash や qwen3-coder:30b のような中規模モデルでは 24GB 以上が必要です。必要量は、モデルサイズと量子化レベルによって正確に変わります。コンテキストウィンドウを低くすると VRAM の必要量は減りますが、その代わり OpenClaw のパフォーマンスも低下します。

OpenClaw では Q4 と Q8 のどちらの量子化を使うべきですか?

Q4_K_M は、多くの運用者にとって最良の出発点です。フル精度と比べて VRAM 使用量をおよそ半分に抑えつつ、エージェント用途での品質低下は最小限にとどまるからです。Q8 は複雑な推論において明確に優れていますが、必要 VRAM は大幅に増えます。GPU にコンテキストウィンドウのメモリを見込んだ上でも余裕がある場合にのみ Q8 を使ってください。

RTX 3060 のような古い GPU で OpenClaw 用に Ollama を動かせますか?

はい、ただし制限があります。RTX 3060 には 12GB の VRAM があります。中程度のコンテキスト長であれば、Q4 量子化した 7-9B モデルには十分です。30B モデルの実行や、64K コンテキストの推奨を満たすことはできません。予算のある環境では、より重いタスクは OpenRouter のフォールバックと組み合わせ、小さめのローカルモデルを使うのがよいでしょう。

Ollama は OpenClaw で自動的に GPU を使いますか?

はい、Ollama は NVIDIA の CUDA 対応 GPU と、Metal 対応の Apple Silicon GPU を自動的に検出して使用します。ほとんどの場合、GPU オフロードを手動で設定する必要はありません。モデルが CPU 上で動いているのではなく GPU 上で読み込まれていることを確認するには、nvidia-smi または ollama ps を使ってください。