Gemma 4 のMTP(Multi-Token Prediction)ドラフトモデルがリリース

Reddit r/LocalLLaMA / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Googleは、Gemma 4に小型で高速なドラフトモデルを拡張して用いるGemma 4 Multi-Token Prediction(MTP)のドラフトモデルをリリースしました。
  • MTPの推論パイプライン(speculative decoding)では、ドラフトモデルが複数トークン先を予測し、ターゲットモデルが並列に検証します。
  • この手法により、通常の生成と同一の品質を維持したまま、最大2倍のデコード高速化が可能です。
  • リリースされたHugging Faceのチェックポイントには、Gemma 4ファミリーの複数サイズ(31B、26B、E4B、E2Bなど)が含まれており、低遅延やオンデバイス用途を想定しています。
  • これらのMTP成果物は、スタンドアロンのチャットモデルではなく、speculative decodingシステムに組み込むことを意図した「MTP drafters」として提供されています。

ブログ記事:

https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

MTPドラフトモデル:

https://huggingface.co/google/gemma-4-31B-it-assistant

https://huggingface.co/google/gemma-4-26B-A4B-it-assistant

https://huggingface.co/google/gemma-4-E4B-it-assistant

https://huggingface.co/google/gemma-4-E2B-it-assistant

このモデルカードは、Gemma 4 モデルの Multi-Token Prediction(MTP)ドラフター用です。MTPは、小さくて高速なドラフトモデルをベースモデルに拡張することで実装されています。Speculative Decoding パイプラインで使用すると、ドラフトモデルが複数のトークン先を予測し、ターゲットモデルがそれらを並列に検証します。その結果、標準的な生成とまったく同じ品質を保証しつつ、デコード速度が大幅に向上します(最大2倍)。そのため、これらのチェックポイントは、低レイテンシーおよびオンデバイス用途に最適です。

が提出 /u/rerri
[リンク] [コメント]