llama.cppベンチで「Vulkanバックエンド」が「ROCm」よりStrix Halo（gfx1151）で高速：比較結果

Reddit r/LocalLLaMA / 2026/5/5

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

ユーザーがAMD Radeon 8060S（Strix Halo、gfx1151）上でllama.cppのベンチマークを実行し、VulkanバックエンドがROCmバックエンドを上回る結果になったと報告しました。
試したQwen3.6-35B-A3B MoEモデル（Q6_K量子化、約30GB）では、Vulkanがトークン生成で約21%高速で、ROCmよりばらつき（分散）が小さいことが確認されました。
このワークロードにおいて、プロンプト処理の性能はVulkanとROCmで概ね同程度でした。
llama.cppの特定コミット（27aef3dd9）で両バックエンドを同一バイナリに組み込み（-DGGML_HIP=ON -DGGML_VULKAN=ON）、-dev Vulkan0を指定するとより良い結果になったとしています。
ユーザーは、ROCmがこのGPU上の一部オペレーションでより遅いコードパスにフォールバックしている可能性があると推測し、同様の傾向をStrix HaloやRDNA3.5系で見た人がいるかを尋ねています。

先ほど、手元のStrix HaloシステムでROCmとVulkanのバックエンドを llama-bench で比較してみました。Vulkanのほうが上回っていて、正直驚きました。

ハードウェア:

- AMD Radeon 8060S（gfx1151 / Strix Halo）

- 64GB ユニファイドVRAM

- Arch Linux、pacman経由で ROCm 7.2.2

- Mesa RADV Vulkanドライバ

モデル: Qwen3.6-35B-A3B（MoE、Q6_K 量子化、~30GB）

llama.cpp: commit 27aef3dd9

フラグ: -ngl 99 -p 512 -n 128 -t 8 -fa 1 -b 2048 -ub 512

結果（tokens/sec）:

| Backend | pp512 | tg128 | Std Dev |

|---------|-------|-------|---------|

| ROCm0 | 841 | 42.3 | ±1.8 |

| Vulkan0 | 867 | 51.2 | ±0.5 |

Vulkanはトークン生成で約21%高速で、さらにより安定していました（分散が小さい）。プロンプト処理はだいたい同等です。

私は両方のバックエンドを同じバイナリに組み込みました（`-DGGML_HIP=ON -DGGML_VULKAN=ON`）。このワークロードでは `-dev Vulkan0` のほうがROCmより良い結果になります。

Strix Haloや、ほかのRDNA3.5チップでも同じようなことが起きた人はいないでしょうか。ROCmは、このGPU上の特定の演算（op）で、より遅いコードパスにフォールバックしているように見えます。

AI Business

Dev.to

Dev.to

TechCrunch

The Verge