Google Gemma 4 レビュー(2026年): ローカルで動き、クローズドAPIに勝るオープンモデル

Dev.to / 2026/4/13

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Googleは2026年4月2日に、Apache 2.0ライセンスのオープンウェイト・モデル群としてGemma 4をリリースし、MAU上限やロイヤリティなしで商用利用を可能にした。
  • 26B MoE版は、実用上の「スイートスポット」として位置づけられており、アクティブ計算に対して強力な性能を提供しつつ、多くのワークフローで高価なクローズドAPI呼び出しの置き換えを狙っている。
  • Gemma 4はローカル展開に適しており、とりわけApple SiliconでOllama v0.19およびMLXを使う場合に強い効果があるが、31B Denseモデルには軽微な問題がある可能性がある。
  • エージェント的な利用のために、Gemma 4にはネイティブの関数呼び出しとJSON出力が備わっている。ただし、26B MoE版ではJSON/ツール呼び出しのフォーマットに誤りが出ることがある。
  • マルチモーダル対応は、モデルサイズに応じてテキストに加え画像および動画を扱える。音声は特定のバリアント(E2B/E4B)のみで利用可能であり、記事ではローカル実行の低コスト/ゼロコストに焦点を当てている。

もともと NextFuture に掲載

Quick Verdict

Performance ⭐⭐⭐⭐⭐

  • 31B Denseは、オープンソースのランキングモデルとして世界で#3。26B MoEは、サイズ以上のパフォーマンスを発揮

License ⭐⭐⭐⭐⭐

  • Apache 2.0 — 本当にオープンで、MAU(月間アクティブユーザー)制限なし、商用にやさしい

Local Deployment ⭐⭐⭐⭐

  • Ollama v0.19 + MLXで、Apple Silicon上で問題なく動作。31Bはまだいくつかの軽微なバグあり

Agentic/Tool Use ⭐⭐⭐⭐

  • ネイティブのfunction-callingとJSON出力をサポート。ただし26Bはフォーマットのエラーがある

Multimodality ⭐⭐⭐⭐

  • テキスト + 画像 + 動画をあらゆるサイズで処理可能。音声はE2B/E4Bのみ

Cost ⭐⭐⭐⭐⭐

  • AI Studio API経由で1回の実行あたり$0.20。ローカル利用なら無料。ロイヤリティ(著作権使用料)も不要

Bottom line: Gemma 4は、2026年にリリースされた最も開発者フレンドリーなオープンモデルです。Apache 2.0ライセンスだけでも評価する価値があります。26B MoEは多くのチームにとっての最適解で、速くて安く、さらにGPT-4oクラスのAPI呼び出しを多くのワークフローで置き換えられるだけの能力があります。エージェント的な使い方をするなら、JSONのツール呼び出しフォーマットのバグには備えておいてください。

What Is Google Gemma 4?

Googleは2026年4月2日に、完全に許容的(パーミッシブ)なApache 2.0ライセンスの下でGemma 4を公開しました。これはGoogle Gemini 3と同じ研究スタックをベースにしており、誰でもダウンロードでき、ファインチューニングでき、商用として展開できる「オープンウェイトモデル群」としてパッケージされています。ロイヤリティ不要、月間アクティブユーザー上限なし、法的なグレーゾーンなしです。

フロントエンド開発者やインディーハッカーにとって、その意味は非常に大きいです。高性能なLLMを自社プロダクトに直接組み込み、自分たちのインフラでホストし、誰にもトークン課金のAPI料金を払う必要がありません。26B MoE版はすでにr/LocalLLaMAで、AI Studio経由で「1回のフルベンチマーク実行あたり$0.20」で動作し、しかも10倍のコストがかかるモデルよりも優れていることが指摘されています。

The Four Model Sizes: Which One Is Right for You?

ModelActive ParamsContextMultimodalBest ForHardware Floor Gemma 4 E2B2B128KText + Image + AudioMobile, IoT, エッジデバイススマートフォン / Raspberry Pi Gemma 4 E4B4B128KText + Image + AudioノートPCでの推論、素早いプロトタイプ8GB RAM MacBook M2+ Gemma 4 26B MoE (A4B)~4B active of 26B256KText + Image + VideoProduction API、エージェント型パイプライン16-32GB ユニファイドメモリ Gemma 4 31B Dense31B256KText + Image + Video最大品質、リサーチ、ファインチューニング32GB+(M3 Max / GPUクラウド)

26B MoEは、ほとんどの開発者にとっての看板モデルです。そのMixture-of-Expertsアーキテクチャは、フォワードパスあたりで約3.8Bのパラメータしか有効化しません。つまり、4B級のスピードで動きながら、密な(dense)モデル品質の97%を提供します。Arena AIリーダーボードでは、全てのオープンモデルの中で#6。31B Denseは#3です。

Key Features That Actually Matter for Developers

1. Native Function-Calling and Structured JSON Output

Gemma 4は、ツール/関数呼び出しと構造化JSON出力を、ベースモデルに標準搭載しています。プロンプトエンジニアリングで後付けしたのではありません。Ollama REST APIを使った最小限の例です:

// Ollama API経由のGemma 4 function-calling
const response = await fetch("http://localhost:11434/api/chat", {
  method: "POST",
  body: JSON.stringify({
    model: "gemma4:26b",
    messages: [
      { role: "user", content: "今この時点のハノイの天気は?" }
    ],
    tools: [
      {
        type: "function",
        function: {
          name: "get_weather",
          description: "都市の現在の天気を取得する",
          parameters: {
            type: "object",
            properties: {
              city: { type: "string", description: "都市名" }
            },
            required: ["city"]
          }
        }
      }
    ]
  })
});
const data = await response.json();
// data.message.tool_calls → [{ function: { name: "get_weather", arguments: { city: "Hanoi" } } }]

2. Thinking Mode (Configurable Reasoning)

Gemini 2.5と同様に、Gemma 4は設定可能な「thinking mode」をサポートしています。回答する前に、モデルに段階的に推論させるよう指示できます。これは別のモデルバリアントとしてではなく、システム命令として提示されます。数学、デバッグ、複数ステップの計画タスクに役立ちます。

const messages = [
  {
    role: "system",
    content: "回答する前に、手順を追って考えてください。構造化された推論を使用してください。"
  },
  {
    role: "user",
    content: "このReactのuseEffectをデバッグしてください。依存配列にもかかわらず、毎回のレンダーで発火しています。"
  }
];

3. 256Kコンテキストウィンドウ

26Bおよび31Bモデルは、最大256,000トークンのコンテキストを扱えます。フロントエンド開発者にとっては、コードベース全体、デザインシステムのドキュメント、あるいはGitHubの課題で1スプリント分丸ごとを、分割せずに1つのプロンプトにそのまま投入できる、ということです。

Ollama v0.19でGemma 4をローカル実行する

2026年3月30日〜4月3日にリリースされたOllama v0.19は、Apple Silicon向けにApple MLXフレームワークを使って推論スタックを作り直しました。その結果、llama.cppバックエンドと比べてMシリーズチップでデコード速度が93%高速化しています。Gemma 4 + Ollama v0.19は、現在Mac開発者にとって最適なローカルAI構成です。

設定: Mac(Apple Silicon)

# Ollama v0.19にアップデート
brew upgrade ollama

# Gemma 4 26B MoEを取得(32GBのMacなら推奨)
ollama pull gemma4:26b

# 8〜16GBのMac向けの効率的な4Bエッジモデル
ollama pull gemma4:4b

# インタラクティブに実行
ollama run gemma4:26b

# もしくはローカルAPIサーバーとして公開
ollama serve
# → http://localhost:11434 (OpenAI互換のエンドポイント)

設定: Linux / クラウドGPU

# LinuxにOllamaをインストール
curl -fsSL https://ollama.com/install.sh | sh

# Gemma 4 31B Denseを取得して実行(32GB以上のVRAMが必要)
ollama pull gemma4:31b
ollama run gemma4:31b

# DigitalOceanのGPU DropletsでのクラウドGPUデプロイの場合:
# 推奨: H100 80GB または 31B Dense向けに2x A100 40GB
# 予算オプション: 26B MoE向けのA100 40GB(余裕を持って収まる)

Gemma 4をデプロイするためにGPUクラウドインスタンスが必要ですか?DigitalOcean GPU Dropletsは、ワンクリックでUbuntuとCUDAのスタックを用意してくれ、H100インスタンスにはOllamaに対応したイメージが利用できます。何か支払う前に、まず試すための$200分の無料クレジットがもらえます。

論争のポイント: 彼らが教えてくれないこと

RedditやHacker Newsでの反応は概ね好意的ですが、Gemma 4に基づいて構築する前に知っておくべき、いくつかの実際の問題が明らかになっています。

1. リリース前にGoogleが「重要な機能を削除した」

r/ArtificialSentienceで、公開リリースの前にGoogleがGemma 4から重要な性能機能をこっそり削除したと主張するスレッドが拡散しました。削除された正確な機能は公式には確認されていませんが、示唆されているのは、オープンソース版がGoogleの社内で使っているものに比べて意図的に制限されているということです。ここから続く議論は、オープンウェイトはオープンソースと同じなのか?という点です。

"企業が学習データと公開リリースに含まれる機能の両方を管理しているとき、それを『オープンソース』と呼ぶのは哲学ではなくマーケティングです。" — r/ArtificialSentience

2. 26B MoEはJSONツール呼び出しを壊してしまう

最も実用的な落とし穴の1つはこれです。26B A4Bのバリアントは、エージェント型ワークフローでツール呼び出しを行う際に不正なJSON(malformed JSON)を生成します。引用符が崩れる、末尾にガベージのトークンが付く、有効でないエスケープシーケンスが入る、などです。r/LocalLLaMAおよびHacker Newsで、複数の開発者がこの事実を確認しており、独自のサニタイザー(後処理)回避策も公開されています。26B MoEの上にAIエージェントを構築するなら、このための時間を見積もってください。

// コミュニティの回避策: Gemma 4 26Bのツール呼び出し用に3段階のJSONサニタイザー
function sanitizeGemmaToolCall(raw: string): object {
  let cleaned = raw
    .replace(/[    .replace(/,\s*}/g,"}")                // オブジェクト内の末尾カンマs
    .replace(/,\s*]/g, "]")               // 配列内の末尾カンマ
    .replace(/\'/g, "'")                  // 無効なエスケープシーケンス
    .trim();

  // ガベージトークンによって途中で切れたJSONを処理
  if (!cleaned.endsWith("}")) {
    cleaned = cleaned.slice(0, cleaned.lastIndexOf("}") + 1);
  }
  return JSON.parse(cleaned);
}

3. 31B Denseは一部のユーザー環境でローカル実行が壊れている

返却形式: {"translated": "翻訳されたHTML"}

複数のユーザーが、ローカルで31Bモデルを実行するとダッシュ(-)だけが出力されると報告しています。一方で、AI Studio API経由では正常に動作します。根本原因は、古いllama.cppビルドにおける量子化設定の問題のようです。必ず ollama pull gemma4:31b-q4_K_M の量子化を使用し、Ollamaのバージョンが0.19以上であることを確認してください。

4. 小型モデルではビジョンが弱い

E4Bのビジョン機能は評価が割れています — 視覚タスクでは、QwenやMistralの同程度のサイズのモデルと同様に振るわず、劣っています。マルチモーダルの画像理解が主要なユースケースであれば、26B MoEが最小の実用ラインです。

Gemma 4 vs Llama 4 vs Mistral Small 4: 本当の比較

基準Gemma 4 26B MoELlama 4 Scout (109B MoE)Mistral Small 4 (119B MoE) ライセンスApache 2.0カスタムLlamaライセンス(700M MAU上限)Apache 2.0 アクティブ・パラメータ~4Bアクティブ17Bアクティブ6Bアクティブ コンテキストウィンドウ256K10Mトークン256K マルチモーダルテキスト + 画像 + 動画テキスト + 画像テキスト + 画像 Arena AI順位#6 オープンモデルClaimed > GPT-4o(異論あり)#2 OSS非推論 コーディング品質強い(LiveCodeBench)実運用タスクでは批判された最強(統一されたDevstral) ツール呼び出し / JSON26Bではネイティブだがバグあり良い優秀(Magistral推論) 実行に必要なハードウェア16-32GB(高速)80GB+(重い)32-64GB APIコスト$0.20/run AI StudioFree via Meta API€0.10/Mトークン 商用利用完全無料700M MAU上限あり完全無料

筆者の見解: 超長いコンテキストウィンドウが必要なら、10Mトークンのコンテキストを持つLlama 4 Scoutは別格です。コーディング品質が最優先なら、Mistral Small 4が一歩先です。それ以外 — 特にコスト効率の高いエージェント型パイプライン、マルチモーダルタスク、そして「1ドルあたりの生の性能」 — Gemma 4 26B MoEが勝ちます

Vercel AI SDKを使ってNext.jsアプリでGemma 4を利用する

Vercel AI SDKはカスタムのOpenAI互換エンドポイントをサポートしています。つまり、ローカルで動かしているOllamaインスタンスをそのまま差し込めます:

// app/api/chat/route.ts
import { createOpenAI } from "@ai-sdk/openai";
import { streamText } from "ai";

// ローカルのOllamaインスタンスを指定(またはDigitalOceanのGPU Droplet)
const gemma = createOpenAI({
  baseURL: process.env.OLLAMA_URL ?? "http://localhost:11434/v1",
  apiKey: "ollama", // 必須フィールド。内容はOllamaでは無視されます
});

export async function POST(req: Request) {
  const { messages } = await req.json();

  const result = streamText({
    model: gemma("gemma4:26b"),
    messages,
    system: "You are a helpful assistant for a Next.js developer.",
  });

  return result.toDataStreamResponse();
}

OLLAMA_URL=http://your-droplet-ip:11434/v1 をVercelの環境変数に設定すれば、コストゼロのLLMで本番アプリを動かせます。APIキーのローテーション不要、レート制限なし、ベンダーロックインなし。

このセットアップを事前配線した、本番投入可能なスターターが欲しいですか? NextFuture AI Frontend Starter Kit ($49) には、ストリーミングチャット、ツール呼び出し、多プロバイダ対応を備えたNext.js 16 + Vercel AI SDKの完全なスキャフォールドが含まれています — 環境変数を1つ変えるだけでGemma 4に差し替え可能です。

Gemma 4を使うべき?

次の場合はGemma 4を使ってください:

  • 本当にオープンで、商用利用でもライセンス面の面倒が少ないLLMが欲しい

  • Apple Silicon上で構築していて、ローカル推論の最速を求めている(Ollama v0.19 + MLX)

  • 予算が厳しい — 自己ホストは$0、AI Studio経由でも$0.20/run。GPT-4oは$15+/Mトークン

  • プレミアムなAPIティアを支払わずに長いコンテキスト処理(256K)が必要

  • 追加コストなしで、マルチモーダル機能(画像 + 動画)を組み込みたい

  • 微調整をしていて、モデルの全ウェイトにアクセスする必要がある

次の場合はGemma 4をスキップしてください:

  • 超長いコンテキスト(100万トークン超)が必要 — Llama 4 Scoutが唯一の選択肢

  • エージェント型ワークフローがJSONツール呼び出しの信頼性に大きく依存している — 26Bのフォーマットバグが修正されるまでは、Mistral Small 4またはClaude Sonnet 4.6の方が安全

  • より大きいモデルでネイティブな音声入力が必要(E2B/E4Bのみ対応)

  • 自己ホストするためのハードウェアやインフラがなく、管理されたAPIを好む

正直な結論

Gemma 4は、これまでの2026年で最も重要なオープンモデルのリリースです — すべてのクローズドモデルに勝っているからではありません(勝ってはいません)。しかし、独立系開発者の計算式を変えてしまうからです。これほど高機能なモデルに対するApache 2.0ライセンスは、本当に珍しい存在です。推論コストが約4Bのまま動く26B MoEは、「以前はGPU請求書を正当化できなかった」プロジェクトにとって自己ホストを現実的にする種類の効率改善のブレークスルーです。

注意点は確かにありますが、対処可能です: llama.cppをパッチし、MacではOllama v0.19のMLXバックエンドを使い、26Bではツール呼び出しのJSONをサニタイズし、ビジョンにクリティカルな用途では26Bか31Bに徹してください。これらはどれも致命的な問題ではありません — 速いリリースに伴う成長期の課題です。

2026年にAI搭載プロダクトを作っていて、まだGemma 4を試していないなら、お金と能力を手放していることになります

この記事は元々 NextFuture に掲載されました。さらにフルスタック & AIエンジニアリングのコンテンツについてはフォローしてください。