| LocalAI上のGemma 4:Vulkan vs ROCmみなさんこんにちは! LocalAIで新しいGemma 4モデルを使って、いくつか大量のベンチマークを走らせ終えたところです。その結果を共有しようと思います。バックエンドのVulkanとROCmがどの程度互角か気になっていたのと、26B MoE(アクティブなのは約4Bのパラメータのみ)が、実際にはフルの31B denseモデルと比べてどうなのかを見たかったんです。 3つのモデルバリアントを、それぞれVulkanとROCmの両方で実行:
ツール: テストしたコンテキスト深さ: 0、4K、8K、16K、32K、65K、100Kトークン。 システム環境Lemonadeのバージョン: 10.1.0 ```text vulkan : 'b8681' rocm : 'b1232' cpu : 'b8681' ```結果1. Gemma 4 26B-A4B — APEX Balanced(mudler)(図1&2を参照) これは今回の主役です。トークン生成において、Vulkanは一貫してROCmに対して約5〜15%優勢で、ゼロのコンテキストで~49 t/sあたりから始まり、100Kで~32 t/s程度まで自然に落ちていきます。とはいえ、どちらのバックエンドも非常に長いコンテキストではほぼ同じ地点に着地するため、差が縮まります。 プロンプト処理のほうが面白いです。ROCmは低いコンテキストで実際にスパイクが高くなります(4Kで~990 t/sまで到達!)が、Vulkanのほうは安定しています。32K以降で収束し、100KではROCmがわずかに先行します。 正直、どちらのバックエンドでもここはとても良いです。生成速度を重視するならVulkan、長いプロンプトの取り込みをたくさんするならROCmです。 2. Gemma 4 26B-A4B — Q5_K_XL GGUF(unsloth)(図3&4を参照) APEX量子化とかなり似た話ですが、生成は数t/s遅く、ベースラインで約40 t/s(APEXは約49 t/s)です。4Kコンテキストでの奇妙なVulkanスパイク(この~170 t/sの外れ値を無視すれば)以外は、生成では2つのバックエンドはほぼ互角の勝負です。おそらく、その外れ値は計測アーティファクトで、周辺はすべてだいたい~40 t/sです。 プロンプト処理では、短いコンテキストでROCmが明確にリードします。Vulkanの約900 t/sに対し、4Kで~1075 t/sを記録します。ここでも32Kを超えると再び収束します。 3. Gemma 4 31B Dense — Q5_K_XL GGUF(unsloth)(図5&6を参照) そして、ここが……身に染みるポイントです。denseの31Bモデルは、生成で~8〜9 t/sで動いています。これが全てです。MoEの40〜49 t/sと比べると、その差をはっきり感じます。すべてのパラメータが、すべてのトークンで発火する——ノー・フリー・ランチ(ただ乗りの恩恵)はありません。 Vulkanは生成速度でわずかな優位があります(約0.3〜0.5 t/sほど速い)が、65Kおよび100Kのコンテキストテストを完了できませんでした。おそらくメモリ不足、またはタイムアウトになったのでしょう。 プロンプト処理は、ROCmがこのモデルを圧倒する領域です:4Kコンテキストで~264 t/s vs ~174 t/sで、差はさらに広がっていきます。32KではROCmが~153 t/sを出している一方で、Vulkanは~64 t/sでずるずる進む感じです。比較になりません。 31B denseモデルを動かすなら、ROCmが正解です。ですが正直なところ……MoEを使えばいいのでは?
全体像:
普段使いの観点では、Vulkan上の26B-A4B MoEを私は推します。速くて反応が良く、100Kコンテキストも難なく処理できます。 llama-benchyで実施したベンチマークです。必要なら生の数値も共有できます。皆さんの環境で別の結果が出ていないか教えてください! [リンク] [コメント] |
LocalAI上のGemma 4:Vulkan vs ROCm
Reddit r/LocalLLaMA / 2026/4/8
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- この投稿では、LocalAI上で3種類のGemma 4バリアント(2つの量子化フォーマットを持つ26B MoE、および31Bの密モデル)を動かし、最大100Kトークンまでの複数のコンテキスト長にわたって、VulkanとROCmの性能を比較するベンチマークを行っています。
- 26B MoEモデルでAPEX Balanced量子化を使用した場合、Vulkanは短〜中程度のコンテキスト長ではROCmより一貫してトークン生成が速く(概ね5〜15%のリード)、一方で非常に長いコンテキストではその差が縮まります。
- プロンプト処理はバックエンドによって挙動が異なり、ROCmは低いコンテキストサイズで高いスループットを示すことがあり(約4Kトークン付近でピーク)、Vulkanはより安定しています。結果はより大きなコンテキストで収束し、ROCmが約100Kでわずかに先行します。
- ベンチマークは、prefix cachingとgeneration-latency modeを用いたllama-benchyで実施され、全体として両バックエンドとも良好に動作することが報告されています。生成速度を重視するならVulkan、長いプロンプトの取り込み(重めのロング・プロンプト・イングスティオン)を重視するならROCmを選ぶのがよい、という結論です。




