Google、Gemma 4向け「Multi-Token Prediction(MTP)Drafters」をリリース——品質を落とさず最大3倍高速推論

MarkTechPost / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageIndustry & Market MovesModels & Research

要点

  • Googleは、推論を高速化するために推論時推定(speculative decoding)を用いた「Multi-Token Prediction(MTP)Drafters」をGemma 4ファミリー向けにリリースしました。
  • この手法により、出力の品質を損なわずに最大3倍の高速推論が可能だとされています。
  • MTP Draftersは、Gemma 4を実運用する際の効率改善として位置づけられ、AIアプリの応答時間短縮を狙っています。
  • 今回のリリースは、学習面だけでなく推論時の性能最適化にも注力していることを示しています。

Google、推測デコーディングを用いてGemma 4ファミリー向けのMTP(Multi-Token Prediction)ドラフターを導入—最大3倍の高速化を実現

この記事 Google AI Releases Multi-Token Prediction (MTP) Drafters for Gemma 4: Delivering Up to 3x Faster Inference Without Quality Loss は、MarkTechPost に初めて掲載されました。