MTPを搭載したGemma 4の状況:リバースエンジニアリングの取り組み

Reddit r/LocalLLaMA / 2026/4/10

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • コミュニティのアップデートによれば、Gemma 4にはMTP(multi-token prediction)が含まれており、作者が提供されたTFLiteアーティファクトからモデルの重みを抽出したとのことです。
  • 次のマイルストーンは、コンパイル済みのTFLiteグラフファイルからMTPロジックをリバースエンジニアリングし、動作するPyTorch `nn.Module`へと復元することです。そのために、グラフ実装を解釈するためのC++の専門知識が求められています。
  • 抽出されたモデルはINT8量子化されているようで、GoogleがQAT(量子化を考慮した学習)を使用していた場合には、非量子化によって復元できる可能性があると作者は示唆しています。
  • この取り組みでは、GoogleのAI Edge Model Explorerを活用してTFLite/グラフ構造を調査・理解することが想定されており、参考としてGemini Nanoの抽出/変換作業を前例に挙げています。
  • 作者は、抽出結果、再現手順、そしてリバースエンジニアリングの補助に使える可能性があるGraphDefのJSONを含むHugging Faceのリポジトリを公開しています。これらはLLMと併用して活用できるかもしれません。
Update on Gemma 4 having MTP: Reverse engineering effort

みなさんこんにちは

前の投稿 で、Gemma 4 に MTP があることが分かったと書きました。実際に、モデルの重みを抽出することはできたのですが、ここから先はコミュニティの協力が必要です。特に C++ を知っている方に、コンパイル済みの TFLite グラフファイルから MTP を逆解析して、使える Pytorch の nn.Module に戻す作業を手伝ってもらいたいです。

抽出したファイルと、再現(リプリケーション)の手順、見つけられた手がかりをまとめたリポジトリを HuggingFace に作成しました。投稿内でそのリンクを張っています。

TL;DR

  • 抽出した .litertlm --> 複数の .tflite ファイル
  • INT8 で量子化されているようです。そのため、Google 側で QAT 学習を行っていれば、デ量子化によって復元できる可能性があります
  • Google の AI Edge Model explorer で逆解析可能: https://ai.google.dev/edge/model-explorer
  • 以前の Gemini Nano の抽出/変換の取り組みが役立つかもしれません(例:safetensors への変換) https://huggingface.co/Xenova/gemini-nano/discussions/1 。今回は、Gemma 4 のトランスフォーマブロック実装が分かっているので、移植が実際にはもっと簡単になるはずで、これが中核部分だと思われます
  • Graphdef の JSON も抽出しました。LLM を使った逆解析に使えるかもしれません。JSON は私のリポジトリの extracted/ フォルダ内で利用可能です。
submitted by /u/Electrical-Monitor27
[link] [comments]