LocalAI上のGemma 4：Vulkan vs ROCm

Reddit r/LocalLLaMA / 2026/4/8

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

この投稿では、LocalAI上で3種類のGemma 4バリアント（2つの量子化フォーマットを持つ26B MoE、および31Bの密モデル）を動かし、最大100Kトークンまでの複数のコンテキスト長にわたって、VulkanとROCmの性能を比較するベンチマークを行っています。
26B MoEモデルでAPEX Balanced量子化を使用した場合、Vulkanは短〜中程度のコンテキスト長ではROCmより一貫してトークン生成が速く（概ね5〜15%のリード）、一方で非常に長いコンテキストではその差が縮まります。
プロンプト処理はバックエンドによって挙動が異なり、ROCmは低いコンテキストサイズで高いスループットを示すことがあり（約4Kトークン付近でピーク）、Vulkanはより安定しています。結果はより大きなコンテキストで収束し、ROCmが約100Kでわずかに先行します。
ベンチマークは、prefix cachingとgeneration-latency modeを用いたllama-benchyで実施され、全体として両バックエンドとも良好に動作することが報告されています。生成速度を重視するならVulkan、長いプロンプトの取り込み（重めのロング・プロンプト・イングスティオン）を重視するならROCmを選ぶのがよい、という結論です。

LocalAI上のGemma 4：Vulkan vs ROCm

みなさんこんにちは！

LocalAIで新しいGemma 4モデルを使って、いくつか大量のベンチマークを走らせ終えたところです。その結果を共有しようと思います。バックエンドのVulkanとROCmがどの程度互角か気になっていたのと、26B MoE（アクティブなのは約4Bのパラメータのみ）が、実際にはフルの31B denseモデルと比べてどうなのかを見たかったんです。

3つのモデルバリアントを、それぞれVulkanとROCmの両方で実行：

モデル	タイプ	量子化	出典
gemma-4-26B-A4B-it-APEX	MoE（4Bアクティブ）	APEX Balanced	mudler
gemma-4-26B-A4B-it	MoE（4Bアクティブ）	Q5_K_XL GGUF	unsloth
gemma-4-31B-it	Dense（31B）	Q5_K_XL GGUF	unsloth

ツール： llama-benchy（uvx経由）、プレフィックスキャッシュ有効、生成レイテンシモード、アダプティブプロンプト。

テストしたコンテキスト深さ： 0、4K、8K、16K、32K、65K、100Kトークン。

システム環境

Lemonadeのバージョン： 10.1.0
OS： Linux-6.19.10-061910-generic（Ubuntu 25.10）
CPU： AMD RYZEN AI MAX+ 395 w/ Radeon 8060S
共有GPUメモリ： 118.1 GB
TDP： 85W

```text vulkan : 'b8681' rocm : 'b1232' cpu : 'b8681'

```

結果

1. Gemma 4 26B-A4B — APEX Balanced（mudler）

（図1＆2を参照）

これは今回の主役です。トークン生成において、Vulkanは一貫してROCmに対して約5〜15%優勢で、ゼロのコンテキストで~49 t/sあたりから始まり、100Kで~32 t/s程度まで自然に落ちていきます。とはいえ、どちらのバックエンドも非常に長いコンテキストではほぼ同じ地点に着地するため、差が縮まります。

プロンプト処理のほうが面白いです。ROCmは低いコンテキストで実際にスパイクが高くなります（4Kで~990 t/sまで到達！）が、Vulkanのほうは安定しています。32K以降で収束し、100KではROCmがわずかに先行します。

正直、どちらのバックエンドでもここはとても良いです。生成速度を重視するならVulkan、長いプロンプトの取り込みをたくさんするならROCmです。

2. Gemma 4 26B-A4B — Q5_K_XL GGUF（unsloth）

（図3＆4を参照）

APEX量子化とかなり似た話ですが、生成は数t/s遅く、ベースラインで約40 t/s（APEXは約49 t/s）です。4Kコンテキストでの奇妙なVulkanスパイク（この~170 t/sの外れ値を無視すれば）以外は、生成では2つのバックエンドはほぼ互角の勝負です。おそらく、その外れ値は計測アーティファクトで、周辺はすべてだいたい~40 t/sです。

プロンプト処理では、短いコンテキストでROCmが明確にリードします。Vulkanの約900 t/sに対し、4Kで~1075 t/sを記録します。ここでも32Kを超えると再び収束します。

3. Gemma 4 31B Dense — Q5_K_XL GGUF（unsloth）

（図5＆6を参照）

そして、ここが……身に染みるポイントです。denseの31Bモデルは、生成で~8〜9 t/sで動いています。これが全てです。MoEの40〜49 t/sと比べると、その差をはっきり感じます。すべてのパラメータが、すべてのトークンで発火する——ノー・フリー・ランチ（ただ乗りの恩恵）はありません。

Vulkanは生成速度でわずかな優位があります（約0.3〜0.5 t/sほど速い）が、65Kおよび100Kのコンテキストテストを完了できませんでした。おそらくメモリ不足、またはタイムアウトになったのでしょう。

プロンプト処理は、ROCmがこのモデルを圧倒する領域です：4Kコンテキストで~264 t/s vs ~174 t/sで、差はさらに広がっていきます。32KではROCmが~153 t/sを出している一方で、Vulkanは~64 t/sでずるずる進む感じです。比較になりません。

31B denseモデルを動かすなら、ROCmが正解です。ですが正直なところ……MoEを使えばいいのでは？

	生成速度の勝者	プロンプト処理の勝者
26B MoE APEX	Vulkan（僅差）	混在 — 低ctxではROCm
26B MoE Q5_K_XL	ほぼ同点	ROCm
31B Dense Q5_K_XL	Vulkan（ほんの僅か）	ROCm（圧勝）

全体像：

Vulkanは生成寄り、ROCmはプロンプト処理寄りです。優先順位を決めましょう。
~32Kコンテキストを超えると両者は収束 — どちらにせよ、メモリ帯域に縛られます。
MoEモデルではAPEX量子化がQ5_K_XLを上回る（ピーク生成が約49 vs 約40 t/s）ので、品質があなたの用途で問題ないならmudlerのAPEXバリアントも検討する価値があります。
プレフィックスキャッシュは全テストで有効だったので、高い深さでのプロンプト処理の数値はそれによって恩恵を受けている可能性があります。

普段使いの観点では、Vulkan上の26B-A4B MoEを私は推します。速くて反応が良く、100Kコンテキストも難なく処理できます。

llama-benchyで実施したベンチマークです。必要なら生の数値も共有できます。皆さんの環境で別の結果が出ていないか教えてください！

提出者： /u/pipould
[リンク] [コメント]