Google Cloud の GPU 付き Cloud Run で Ollama + Local LLM を動かしてみた

Zenn / 3/29/2026

💬 OpinionDeveloper Stack & InfrastructureTools & Practical Usage

共有:

Key Points

Google Cloud の GPU 付き Cloud Run 環境で、Ollama とローカルLLMを動かす手順・構成を実際に試した内容です。
GPU を前提にすることで、ローカルLLMの実行や応答速度といった運用面での成立性を検証しています。
Cloud Run（コンテナ実行）上で Ollama を組み合わせることで、扱いやすいデプロイ形態としての利点が示されています。
実装にあたっては、コンテナ化・設定（GPU/ランタイム等）・起動確認の観点が重要になる点が読み取れます。

この記事でやること Google Cloud の Cloud Run[1]（GPU 付き）に Ollama[2] をデプロイし、ローカルから LLM に話しかけられる環境を構築します。 30B 程度の LLM であれば、今回の方法によりクラウド経由で利用することができます。（ローカルPCの制約は気にしなくて大丈夫！）完成イメージはこんな感じです。ローカルの curl コマンドで、Cloud Run 上の LLM から推論結果が返ってきます。 curl -s localhost:9090/api/generate -d '{ "model": "qwen3-coder:30b"...

Continue reading this article on the original site.

Read original →

Black Hat Asia

AI Business

EZRide Intel — I Built an AI Assistant for Boston's Hidden Free Bus Using Notion MCP

Dev.to

Notion Newsroom AI

Dev.to

What Is AI Execution Risk? Why AI Governance Fails at the Execution Boundary

Dev.to

How to Evaluate a Binary Classifier: A Complete Guide

Dev.to

Google Cloud の GPU 付き Cloud Run で Ollama + Local LLM を動かしてみた

Key Points

Related Articles

Black Hat Asia

EZRide Intel — I Built an AI Assistant for Boston's Hidden Free Bus Using Notion MCP

Notion Newsroom AI

What Is AI Execution Risk? Why AI Governance Fails at the Execution Boundary

How to Evaluate a Binary Classifier: A Complete Guide

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer