Strix Halo上でGemma 4 QAT Q4_0モデルをllama.cpp(Vulkan/RADV)でベンチマーク
Reddit r/LocalLLaMA / 2026/6/6
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- この記事は、Strix Halo APU上でllama.cpp(Vulkan/RADV)を使ってローカル実行した、Google公式のGemma 4 QAT Q4_0 GGUFモデルのベンチ結果をまとめています。
- QAT(quantization-aware training)により、Q4の低精度設定でも、単純なポストトレーニング量子化より元モデルの挙動をより保つことを狙います。
- ベンチのホスト環境として、AMD Ryzen AI Max+ 395、統一メモリ128GB、Linux Mint/Ubuntu系、Linuxカーネル6.17、Mesa/RADV、さらにVulkan/RADV推論向けのAtomic llama.cpp TurboQuantフォークなどの構成が示されています。
- Gemma 4のQATバリアントとして、12B/26B-A4B/31BをQ4_0でテストし、GGUFのディスク上サイズが報告されています。
- 「MTP assistant heads」では、非QATのアシスタントヘッドを流用するより、Googleの対応するQATアシスタントソースを使ってAtomic/llama.cpp互換のGGUFへ変換した方が受け入れ(acceptance)が良いと述べられており、必要なGGUFメタデータ要件も言及されています。
この記事の続きは原文サイトでお読みいただけます。
原文を読む →


