ブログ記事:
https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/
MTPドラフトモデル:
https://huggingface.co/google/gemma-4-31B-it-assistant
https://huggingface.co/google/gemma-4-26B-A4B-it-assistant
https://huggingface.co/google/gemma-4-E4B-it-assistant
https://huggingface.co/google/gemma-4-E2B-it-assistant
このモデルカードは、Gemma 4 モデルの Multi-Token Prediction(MTP)ドラフター用です。MTPは、小さくて高速なドラフトモデルをベースモデルに拡張することで実装されています。Speculative Decoding パイプラインで使用すると、ドラフトモデルが複数のトークン先を予測し、ターゲットモデルがそれらを並列に検証します。その結果、標準的な生成とまったく同じ品質を保証しつつ、デコード速度が大幅に向上します(最大2倍)。そのため、これらのチェックポイントは、低レイテンシーおよびオンデバイス用途に最適です。
[リンク] [コメント]




