過去2年間、オープンウェイトモデルを評価している企業は、気まずいトレードオフに直面してきました。GoogleのGemmaシリーズは一貫して高い性能を発揮していましたが、その独自ライセンス――利用制限や、Googleが必要に応じて自由に更新できる条件つき――が、多くのチームをMistralやAlibabaのQwenへと向かわせました。法務レビューが摩擦を生み、コンプライアンスチームは想定外のケースを指摘しました。そして、Gemma 3がいかに優れていても、「※付きの“オープン”」は「オープン」と同じではありません。
Gemma 4は、その摩擦を完全に解消します。Google DeepMindの最新のオープンモデルファミリーは、標準のApache 2.0ライセンスで提供されます――Qwen、Mistral、Arcee、そしてオープンウェイトのエコシステムの多くが採用しているのと同じ、寛容な条件です。
カスタム条項はありません。「有害な利用(Harmful Use)」のように法的解釈を要する例外もありません。再配布や商用展開に関する制限もありません。フィールド全体と同じライセンシング条件でGoogleが提供してくれるのを待っていたエンタープライズチームにとって、待ち時間は終わりました。
タイミングも注目に値します。中国の一部AIラボ(とりわけ、Alibabaの最新のQwenモデルであるQwen3.5 OmniとQwen 3.6 Plus)が、最新モデルで完全オープンなリリースから後退し始めている一方で、Googleは逆方向に動いています。つまり、これまでで最も高性能なGemmaの公開を行いながら、アーキテクチャが同社の商用Gemini 3の研究に基づくことを明確に示しているのです。
4つのモデル、2つのティア:単一ファミリーでエッジからワークステーションまで
Gemma 4は、2つのデプロイメントティアに整理された4つの別個のモデルとして登場します。「ワークステーション」ティアには、31Bパラメータの密モデルと26B A4B Mixture-of-Experts(MoE)モデルが含まれ、いずれも256Kトークンのコンテキストウィンドウを備え、テキスト入力と画像入力に対応します。「エッジ」ティアは、E2BとE4Bから成るコンパクトモデルで、スマートフォン、組み込みデバイス、ノートPC向けに設計され、128Kトークンのコンテキストウィンドウを備え、テキスト、画像、音声に対応します。
命名規則は、少し解きほぐす必要があります。「E」プレフィックスは「effective parameters(有効パラメータ)」を示します。E2Bは有効パラメータが23億である一方、総パラメータ数は51億です。これは、各デコーダ層にそれぞれ小さな埋め込みテーブルが搭載されており、GoogleがPer-Layer Embeddings(PLE)と呼ぶ手法によっているためです。これらのテーブルはディスク上では大きいものの、計算は安価です。だからこそ、モデルは技術的にはより重いのに、2Bのように動きます。
26B A4Bにおける「A」は「active parameters(アクティブパラメータ)」を意味します。MoEモデルの総パラメータ数25.2Bのうち、推論時に起動するのは38億だけです。つまり、4Bモデルと同程度の計算コストで、約26Bクラスの知能を提供することになります。
GPU要件を見積もるITリーダーにとって、これはデプロイの柔軟性に直結します。MoEモデルはコンシューマ向けのGPUで動作でき、OllamaやLM Studioのようなツールで素早く登場するはずです。31Bの密モデルは、より余裕が必要です。無量子化の推論ならNVIDIA H100やRTX 6000 Proといったイメージです。ただしGoogleは、より低い精度でも品質を維持するためのQuantization-Aware Training(QAT)チェックポイントも投入しています。Google Cloudでは、両方のワークステーションモデルがCloud Run経由で、NVIDIA RTX Pro 6000 GPUを使った完全なサーバーレス構成で今すぐ動かせます。アイドル時はゼロまでスケールダウンします。
MoEへの賭け:128の小さなエキスパートで推論コストを節約
26B A4Bモデル内部のアーキテクチャ上の選択は、推論コストの経済性を評価するチームにとって特に注目に値します。少数の大きなエキスパートを使う、近年の大規模MoEモデルのパターンに従うのではなく、Googleは128の小さなエキスパートを採用しました。トークンごとに8つを起動し、さらに常時稼働の共有エキスパートを1つ加えます。その結果、27B〜31Bレンジの密モデルと競争力のあるベンチマーク成績を示しつつ、推論時の速度は4Bモデル相当です。
これは単なるベンチマーク上の興味にとどまりません。実際の提供コストに直結します。4Bクラスのスループットで27Bクラスの推論を提供できるなら、必要GPUが減り、レイテンシも下がり、運用における1トークンあたりの推論コストも安くなります。コーディング支援者、ドキュメント処理パイプライン、あるいはマルチターンのエージェント的ワークフローを運用している組織にとって、MoE版はファミリー内で最も実用的な選択肢になり得ます。
両方のワークステーションモデルは、ハイブリッドアテンション機構を使います。これは、ローカルのスライディングウィンドウ・アテンションと、完全なグローバル・アテンションを交互に用い、最終層は常にグローバルです。この設計により、メモリ消費を抑えつつ256Kのコンテキストウィンドウを実現します。長いドキュメント、コードベース、あるいはマルチターンのエージェント会話を扱うチームにとって重要な考慮事項です。
ネイティブなマルチモダリティ:ビジョン、音声、関数呼び出しを最初から組み込み
これまでのオープンモデルの世代では、マルチモダリティは典型的に「追加機能」として扱われていました。ビジョンエンコーダはテキスト基盤に後付けされ、音声はWhisperのような外部ASRパイプラインが必要でした。関数呼び出しはプロンプトエンジニアリングに頼り、モデルが協調してくれることを願う形でした。Gemma 4は、これらの能力をすべてアーキテクチャレベルで統合しています。
4つのモデルすべてが、設定可能な視覚トークン予算(visual token budgets)により、可変アスペクト比の画像入力を扱います。これはGemma 3nの古いビジョンエンコーダに対する意味のある改善で、OCRやドキュメント理解に苦戦していました。新しいエンコーダは、1枚の画像あたり70〜1,120トークンの予算をサポートし、タスクに応じて開発者が詳細さと計算量のトレードオフを選べるようになります。
低い予算は分類やキャプションに適し、高い予算はOCR、ドキュメントの解析、きめ細かな視覚分析に対応します。マルチ画像入力や動画入力(フレーム列として処理)もネイティブにサポートされており、複数のドキュメントやスクリーンショットにまたがる視覚的推論が可能になります。
2つのエッジモデルには、ネイティブな音声処理が追加されています――自動音声認識と音声から翻訳テキストへの変換をすべて、オンデバイスで行います。音声エンコーダはGemma 3nの6億8100万パラメータから3億500万パラメータへ圧縮され、文字起こしの応答性を高めるためにフレーム長は160msから40msへと短縮されました。医療、フィールドサービス、多言語の顧客対応といった、「データをローカルに保つ必要がある」音声ファーストのアプリケーションを作るチームにとって、スマートフォンやエッジデバイス上でASR、翻訳、推論、関数呼び出しを1つのモデルで動かすことは、まさにアーキテクチャ上の簡素化といえます。
関数呼び出しも、4つのモデルすべてでネイティブに対応しており、昨年末に公開されたGoogleのFunctionGemmaの研究に基づいています。これまでのアプローチが、命令追従によってモデルを構造化されたツール利用へ誘導しようとするものだったのに対し、Gemma 4の関数呼び出しは最初からモデルに学習させてあります。複数のツールを用いたマルチターンのエージェント的フローに最適化されているのです。これはエージェント向けベンチマークにも現れますが、もっと重要なのは、ツールを使うエージェントを構築する際に、エンタープライズチームが一般に投資しているプロンプトエンジニアリングの手間を減らせる点です。
ベンチマークを文脈で見る:混雑した市場でGemma 4がどこに着地するか
ベンチマーク数値は、世代的な改善が明確な物語になっています。31Bの密モデルはAIME 2026で89.2%(厳密な数学的推論テスト)、LiveCodeBench v6で80.0%を記録し、さらにCodeforces ELO 2,150に到達しています。これらの数値は、つい最近まで独自モデルが到達していた“最前線級”のレベルといってよいでしょう。ビジョンでは、MMMU Proが76.9%で、MATH-Visionが85.6%です。
参考として、Gemma 3 27BはAIMEで20.8%、LiveCodeBenchで29.1%を「思考モードなし」で達成しています。
MoEモデルも密に追随します。AIME 2026で88.3%、LiveCodeBenchで77.1%、GPQA Diamondで82.3%――大学院レベルの科学的推論ベンチマーク――です。MoEアーキテクチャが持つ大きな推論コスト優位性を考えると、MoEと密のバリアント間の性能差は控えめです。
エッジ向けモデルは、自分の階級以上の実力を発揮します。E4BはAIME 2026で42.5%、LiveCodeBenchで52.0%を記録しており、T4 GPUで動作するモデルとしては好成績です。さらに小型のE2Bも、それぞれ37.5%と44.0%を達成しています。これらはサイズがほんの一部であるにもかかわらず、搭載された推論機能のおかげで、ほとんどのベンチマークでGemma 3 27B(考え込みなし)を大きく上回っています。
これらの数値は、ますます競争が激しくなるオープンウェイトの状況と照らし合わせて読む必要があります。Qwen 3.5、GLM-5、Kimi K2.5はいずれもこのパラメータ帯で積極的に競っており、市場の動きは速いのです。Gemma 4の違いは、単一のベンチマークの強さというよりも、その組み合わせにあります。すなわち、強力な推論、テキスト/ビジョン/音声にまたがるネイティブなマルチモーダル対応、ファンクション・コーリング、256Kのコンテキスト、そして本当に寛容なライセンス——これらが、エッジデバイスからクラウドのサーバレスまで展開オプションを備えた同一のモデルファミリーにまとまっています。
企業チームが次に注目すべき点
Googleは、事前学習済みのベースモデルと、指示チューニング済みバリアントの両方をリリースします。これは、特定のドメイン向けにファインチューニングを計画している組織にとって重要です。Gemmaのベースモデルは、カスタム学習の強力な土台として歴史的に評価されてきました。そしてApache 2.0ライセンスにより、ファインチューニングした派生物を商用展開できるかどうかについての曖昧さが今では解消されています。
GPUサポート付きCloud Runによるサーバレス展開オプションは、ゼロまでスケールする推論能力が必要なチームにとって注目に値します。常時稼働のGPUインスタンスを維持するのではなく、推論時に実際の計算に対してのみ支払う——こうした仕組みは、特に社内ツールや低トラフィックのアプリケーションにおいて、プロダクションでオープンモデルを展開する際の採算性を大きく変える可能性があります。
Googleは、これがGemma 4ファミリーの完全な全体像ではない可能性を示唆しており、追加のモデルサイズが続く見込みです。しかし、現時点で提供されている組み合わせ——ワークステーション級の推論モデルと、エッジ級のマルチモーダルモデルをすべて、Apache 2.0のもとで、Gemini 3の研究に基づきながら——は、Googleが出荷したオープンモデルの中で最も完全なリリースを表しています。ライセンス条件だけでなく性能面でも、Googleのオープンモデルが競争力を持つのを待っていた企業チームにとって、法務の確認を先に求められることなく評価を始められる段階が、いよいよ来たと言えます。




