Google、マルチトークン予測でGemma 4の生成を3倍高速化

THE DECODER / 2026/5/7

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Googleは、オープンモデル系統のGemma 4に対してマルチトークン予測「ドラフター」を公開し、テキスト生成速度を最大3倍まで向上させました。
  • 小型の補助モデルが複数の候補トークンをまとめて提案することで、生成ステップ数を減らします。
  • メインのGemma 4モデルは提案されたトークンを1回のパスで検証し、品質を保ちながら推論を高速化します。
  • この更新は、オープンモデルのテキスト生成を実運用でより効率的にすることを狙いとしています。

Googleは、同社のGemma 4オープン・モデル・ファミリー向けに、テキスト生成を最大3倍まで高速化するマルチトークン予測のドラフターをリリースしました。小型の補助モデルが一度に複数のトークンを提案し、メインのモデルがそれらを1回のパスで照合します。

この記事 Google speeds up Gemma 4 threefold with multi-token prediction は最初に The Decoder に掲載されました。