Google Cloud の GPU 付き Cloud Run で Ollama + Local LLM を動かしてみた

Zenn / 3/29/2026

💬 OpinionDeveloper Stack & InfrastructureTools & Practical Usage

Key Points

  • Google Cloud の GPU 付き Cloud Run 環境で、Ollama とローカルLLMを動かす手順・構成を実際に試した内容です。
  • GPU を前提にすることで、ローカルLLMの実行や応答速度といった運用面での成立性を検証しています。
  • Cloud Run(コンテナ実行)上で Ollama を組み合わせることで、扱いやすいデプロイ形態としての利点が示されています。
  • 実装にあたっては、コンテナ化・設定(GPU/ランタイム等)・起動確認の観点が重要になる点が読み取れます。
この記事でやること Google Cloud の Cloud Run[1](GPU 付き)に Ollama[2] をデプロイし、ローカルから LLM に話しかけられる環境を構築します。 30B 程度の LLM であれば、今回の方法によりクラウド経由で利用することができます。 (ローカルPCの制約は気にしなくて大丈夫!) 完成イメージはこんな感じです。ローカルの curl コマンドで、Cloud Run 上の LLM から推論結果が返ってきます。 curl -s localhost:9090/api/generate -d '{ "model": "qwen3-coder:30b"...

Continue reading this article on the original site.

Read original →