Strix Halo上でGemma 4 QAT Q4_0モデルをllama.cpp（Vulkan/RADV）でベンチマーク

Reddit r/LocalLLaMA / 2026/6/6

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

この記事は、Strix Halo APU上でllama.cpp（Vulkan/RADV）を使ってローカル実行した、Google公式のGemma 4 QAT Q4_0 GGUFモデルのベンチ結果をまとめています。
QAT（quantization-aware training）により、Q4の低精度設定でも、単純なポストトレーニング量子化より元モデルの挙動をより保つことを狙います。
ベンチのホスト環境として、AMD Ryzen AI Max+ 395、統一メモリ128GB、Linux Mint/Ubuntu系、Linuxカーネル6.17、Mesa/RADV、さらにVulkan/RADV推論向けのAtomic llama.cpp TurboQuantフォークなどの構成が示されています。
Gemma 4のQATバリアントとして、12B／26B-A4B／31BをQ4_0でテストし、GGUFのディスク上サイズが報告されています。
「MTP assistant heads」では、非QATのアシスタントヘッドを流用するより、Googleの対応するQATアシスタントソースを使ってAtomic/llama.cpp互換のGGUFへ変換した方が受け入れ（acceptance）が良いと述べられており、必要なGGUFメタデータ要件も言及されています。

この記事の続きは原文サイトでお読みいただけます。

AI Business

日経XTECH

Dev.to

Dev.to

Dev.to