
Googleは、同社のGemma 4オープン・モデル・ファミリー向けに、テキスト生成を最大3倍まで高速化するマルチトークン予測のドラフターをリリースしました。小型の補助モデルが一度に複数のトークンを提案し、メインのモデルがそれらを1回のパスで照合します。
この記事 Google speeds up Gemma 4 threefold with multi-token prediction は最初に The Decoder に掲載されました。
THE DECODER / 2026/5/7

Googleは、同社のGemma 4オープン・モデル・ファミリー向けに、テキスト生成を最大3倍まで高速化するマルチトークン予測のドラフターをリリースしました。小型の補助モデルが一度に複数のトークンを提案し、メインのモデルがそれらを1回のパスで照合します。
この記事 Google speeds up Gemma 4 threefold with multi-token prediction は最初に The Decoder に掲載されました。