Google Cloud の GPU 付き Cloud Run で Ollama + Local LLM を動かしてみた
Zenn / 2026/3/29
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage
要点
- Google Cloud の GPU 付き Cloud Run 環境で、Ollama とローカルLLMを動かす手順・構成を実際に試した内容です。
- GPU を前提にすることで、ローカルLLMの実行や応答速度といった運用面での成立性を検証しています。
- Cloud Run(コンテナ実行)上で Ollama を組み合わせることで、扱いやすいデプロイ形態としての利点が示されています。
- 実装にあたっては、コンテナ化・設定(GPU/ランタイム等)・起動確認の観点が重要になる点が読み取れます。
この記事でやること
Google Cloud の Cloud Run[1](GPU 付き)に Ollama[2] をデプロイし、ローカルから LLM に話しかけられる環境を構築します。
30B 程度の LLM であれば、今回の方法によりクラウド経由で利用することができます。
(ローカルPCの制約は気にしなくて大丈夫!)
完成イメージはこんな感じです。ローカルの curl コマンドで、Cloud Run 上の LLM から推論結果が返ってきます。
curl -s localhost:9090/api/generate -d '{
"model": "qwen3-coder:30b"...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →


