判明:Gemma 4 には当初から MTP(multi token prediction)が搭載されていた

Reddit r/LocalLLaMA / 2026/4/7

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • LiteRT API 経由で Gemma 4 を統合していた開発者が、Google Pixel 9 デバイス上で「mtp weights が互換性のないテンソル形状である」といった実行時エラーを観測した。
  • 調査の結果、Gemma 4 の LiteRT パッケージには、推測デコード(speculative decoding)やより高速なテキスト生成を目的とした追加の multi-token prediction(MTP)ヘッドが含まれていることが示唆された。
  • 投稿では、Google の従業員が Gemma 4 に MTP があることを確認した一方で、それは「互換性を高め、幅広い導入における使いやすさを向上させるために意図的に削除された」とされている。
  • 著者は、LiteRT のテンソルや計算グラフを逆解析することで、ユーザーが MTP 機能を復元/転用し、より高速な出力を実現できるのではないかと推測している。
Turns out Gemma 4 had MTP (multi token prediction) all along

みなさんこんにちは。私はAndroidアプリでLiteRT API経由にてGemma 4を利用しようとしていたのですが、Gemma 4の読み込み時に、Google Pixel 9のテストデバイス上で「mtp weightsが互換性のないテンソル形状です」というエラーが出るのに気づきました。いろいろ調べたところ、推論(speculative decoding)用と、より高速な出力のために、LiteRTファイル内には追加のMTP予測ヘッドがあることが分かりました。

ところが本日、Googleの社員から確認を得ました。Gemma 4には本当にMTPがあるのだそうですが、「互換性の確保と幅広い使いやすさのために」意図的に「削除された」とのことです。

正直に言うと、もし彼らが完全なモデルをリリースしてくれていたら、もっと良かったのにと思います。なぜなら、Jeff Deanのツイートで偶然、Gemma 124Bモデルはすでにリークされていなかったわけですし。さらに、すでに高速なMoEの上で、Gemma 4の生成出力がもっと速くなっていたら最高でした。誰かがLiteRTの計算グラフをもとに逆解析して、テンソルや数式を抽出できないでしょうか?

こちらが会話へのリンクです:

https://huggingface.co/google/gemma-4-E4B-it/discussions/5

submitted by /u/Electrical-Monitor27
[link] [comments]