OllamaでGemmaを動かすようになってから、AIツールに対する考え方が変わりました。ローカルで動かすべきとき、クラウドにとどめるべきときの判断に使っているフレームワークはこちらです。
多くの開発者がぶつかる瞬間があります。プロジェクトの真ん中で、すべてをChatGPTやClaudeに振り向けてきた。そしてふと考え始めるのです——本当にこれを外部APIに送る必要があるのか? それならローカルで何かを動かしたらどうなるのだろう?
Parrot OS上でセキュリティ自動化パイプラインを作業しているときに、その瞬間が来ました。処理していたデータの中には、マシンの外に出したくないものがありました。そこでOllama経由でGemmaを立ち上げると、APIキーも不要で、ネットワーク遅延もなく、データが自分の環境から外に出ることもなく、タスクをきれいに処理してくれました。
この経験は、「ローカルモデルが意味を持つタイミング」と「クラウドAIが適切な判断になるタイミング」について、より意図的に考えるきっかけになりました。この記事は、私がたどり着いたフレームワークです。
最初に:「ローカル」と「クラウド」のAIが意味するもの
ローカルAIとは、モデルを自分のマシンのCPU、GPU、または両方で直接動かすことです。Ollamaのようなツールが、驚くほど手軽に利用できます。たとえば(ollama pull gemma3のように)モデルを取り込み、あとは数分でローカルで推論(inference)を開始できます。初回のダウンロード後はインターネットは不要です。
クラウドAIとは、OpenAI、Anthropic、Google、Groqのような外部APIにアクセスすることです。モデルはそれらのインフラ上で動作し、リクエストのたびにあなたのデータはサーバーへ送られます。
どちらのアプローチも成熟しており、どちらも本当に役に立ちます。重要なのは、「正しい仕事に対して正しい選択をすること」です。
ローカルAIが勝つとき
データが機密性を持つ
これが最大のポイントです。資格情報、社内のコードベースのロジック、患者記録、法的書類、またはNDAの対象となる何かを処理しているとしましょう。ローカルを使うことは交渉の余地がありません。クラウド事業者にはプライバシーポリシーがあり、(通常)強固なセキュリティもありますが、それでもデータはあなたのマシンの外へ出ます。規制の厳しい業界では、そのトレードオフを受け入れられないことが多いです。
GemmaやLlamaでOllamaを動かせば、プロンプトや完了(completion)が外部サーバーに触れることはありません。セキュリティ系のツールにおいて、これは決定的に重要な要素になります。オフライン、または制限された環境で作業している
組み込みシステム、エアギャップ環境、信頼できる接続がない現場での導入。クラウドAIは論外(ノーゴー)です。ローカルモデルは、ハードウェアが動く場所ならどこでも動きます。
日常の開発でも、オフライン対応は過小評価されています。ワークフローが外部APIに依存していて、そのAPIがダウンした場合(そして実際にダウンします)、パイプライン全体が止まります。レイテンシーをゼロにしたい
リアルタイムアプリケーション、オートコンプリート、エディタ内の提案、ストリーミングによる分析では、クラウド往復の遅延が積み重なります。たとえ300msのAPI応答でも、キー入力のたびに起きるなら、体感としてはもっさりします。
ローカル推論は、特に小さめの量子化モデルなら、適切なハードウェア環境では短い完了に対して大幅に速く動くことがあります。トレードオフはモデル能力ですが、制約されたタスクならその価値があることが多いです。反復的で高ボリュームなタスクを実行している
クラウドAPIはトークン単位で課金されます。要約、分類、変換などを一括バッチで数千回実行するなら、そのコストは急速に積み上がります。ローカルモデルを一度セットアップしてしまえば、同じ作業コストは電力だけです。
cronスケジュールで動くもの、あるいは大規模データセットを定期的に処理するものは、初期セットアップ投資の後は、ほぼ確実にローカル推論の方が経済的に有利になります。コストを気にせず試したい
メーター付きAPIには微妙な心理的効果があります。実験を始めると、「このプロンプトはそのトークン数に見合うのか?」と考え始めてしまうのです。ローカルモデルはその摩擦を完全に取り除きます。強気に反復し、エイブルーション(ablation)を回し、コストの不安なしにエッジケースをテストできます。
クラウドAIが勝つとき
最先端(フロンティア)モデルの能力が必要
ここではクラウドAIが決定的に優位で、しばらくの間はそうでしょう。GPT-4o、Claude Sonnet、Gemini 1.5 Pro——これらのモデルは、複雑な推論、微妙な指示の追従、長いコンテキストといった長文・難易度の高いタスクを、一般的なローカルの消費者向けハードウェアでは太刀打ちできないレベルでこなします。
本物の推論の深さ、多段階の分析、巨大なコードベースにまたがるコード生成、高度な文章作成が必要な場合、クラウドモデルは多くのベンチマークでローカルのものを上回ります。ギャップは縮まっていますが、それでも現実にはまだあります。制約のあるハードウェアを使っている
高性能なローカルモデルを動かすには、まとまったリソースが必要です。Gemma 3は控えめなハードウェアでも動きますが、フロンティアのクラウドモデルに匹敵するものを求めるなら、良い性能のために16GB以上のVRAMが必要になります。もしくは、統合メモリを備えた最新のApple Silicon Macが目安です。
マシンがローカル推論を快適に扱えず、スロットリングしてしまうなら、実際には時間を節約できていません。ボトルネックを移しているだけです。マルチモーダル機能が必要
視覚、音声の文字起こし、画像生成などのローカルなマルチモーダル対応は存在しますが、クラウド側の同等機能よりもまだ、断片的なことが多いです。ワークフローで、テキストに加えて画像・ドキュメント・音声の処理に依存しているなら、クラウドAPIの方がより信頼性が高く、統合もより整っています。コストよりも反復の速さが重要
プロトタイピング、クライアント向けデモ、スピード重視の場面では、クラウドAIはセットアップの摩擦をすべて取り除いてくれます。モデル管理も、ハードウェアの調整も、量子化の判断も不要です。APIを呼べば、最適な利用可能モデルで動いてくれます。
問題領域を調査していて、まだ「何が必要か」が分かっていないなら、クラウドの方が役に立つ答えにたどり着くまでの時間が短いことが多いです。信頼性の保証が必要
実際のユーザーに提供する本番システムには、稼働率保証(アップタイム保証)、フェイルオーバー、サポートが必要です。クラウド事業者はSLAを提供します。一方で、開発用マシン上で動くローカルモデルにはそれがありません。
ハイブリッドアプローチ(私が実際にやっていること)
実際には、これを二択として扱っていません。私は段階的な(レイヤード)アプローチを使っています。
機密データが関わるもの、バッチ処理、そしてすでに検証済みのタスクはまずローカル。
フロンティアモデルの品質が必要で、推論量が多いタスク、複雑なデバッグ、アーキテクチャ設計、ニュアンスのある文章作成はクラウド。
開発ループ、素早い実験、プロンプト反復、APIコールを確約する前にアプローチが成立するかを確認する作業はローカル。
Ollamaがこれを簡単にしてくれます。ローカルでは複数のモデルを動かして、タスクに応じて切り替えられます。私は、素早いローカル作業にはGemmaを動かしておき、重い処理が必要になったらClaudeやGPT-4oへルーティングします。
ローカルAIを始める(まだの人向け)
LinuxまたはmacOSを使っているなら、Ollamaが最速の道です。
# Ollamaをインストール
curl -fsSL https://ollama.com/install.sh | sh
# Gemma 3を取得(能力と速度のバランスが良い)
ollama pull gemma3
# 実行
ollama run gemma3
以上です。ローカル推論を実行できています。ここから、OllamaのOpenAI互換APIエンドポイント(http://localhost:11434/v1)を使って、OpenAIのAPI形式に対応している任意のツールへ組み込むことができます——ほとんどのツールが対応しています。
意思決定のためのフレームワーク
タスクのルーティング先を決めるとき、私は次の4つの質問を順番に行います。
データは機密性がありますか? → ローカル(例外なし)。
フロンティア級の推論が必要ですか? → クラウド。
それは反復的または高ボリュームですか? → ローカル。
プロトタイピング中、または素早く進める局面ですか? → クラウド。
ほとんどのタスクは、きれいにどれか1つの区分に収まります。収まらないケースはたいてい、まずクラウドでハイブリッドアプローチのプロトタイプを作るのが良い候補で、そのパターンが検証できたらローカルへ移行します。
最後に
「ローカル vs. クラウドAI」を競争として捉えるのは的を外しています。両者は異なる問題を解決します。クラウドAIは、セットアップを最小限にして、最も高性能なモデルへのアクセスを提供します。ローカルAIは、クラウドが規模に応じて実現できないレベルの制御、プライバシー、そして経済性をもたらします。
両方を最大限に活用できている開発者は、どちらか一方をデフォルトの選択肢にするのをやめ、意図的に選び始めた人たちです。
うまく機能するローカルモデル環境をお持ちですか?コメントに投稿してください。ほかの開発者が何を動かしているのか、いつも気になります。




