llama.cppベンチで「Vulkanバックエンド」が「ROCm」よりStrix Halo(gfx1151)で高速:比較結果

Reddit r/LocalLLaMA / 2026/5/5

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • ユーザーがAMD Radeon 8060S(Strix Halo、gfx1151)上でllama.cppのベンチマークを実行し、VulkanバックエンドがROCmバックエンドを上回る結果になったと報告しました。
  • 試したQwen3.6-35B-A3B MoEモデル(Q6_K量子化、約30GB)では、Vulkanがトークン生成で約21%高速で、ROCmよりばらつき(分散)が小さいことが確認されました。
  • このワークロードにおいて、プロンプト処理の性能はVulkanとROCmで概ね同程度でした。
  • llama.cppの特定コミット(27aef3dd9)で両バックエンドを同一バイナリに組み込み(-DGGML_HIP=ON -DGGML_VULKAN=ON)、-dev Vulkan0を指定するとより良い結果になったとしています。
  • ユーザーは、ROCmがこのGPU上の一部オペレーションでより遅いコードパスにフォールバックしている可能性があると推測し、同様の傾向をStrix HaloやRDNA3.5系で見た人がいるかを尋ねています。

先ほど、手元のStrix HaloシステムでROCmとVulkanのバックエンドを llama-bench で比較してみました。Vulkanのほうが上回っていて、正直驚きました。

ハードウェア:

- AMD Radeon 8060S(gfx1151 / Strix Halo)

- 64GB ユニファイドVRAM

- Arch Linux、pacman経由で ROCm 7.2.2

- Mesa RADV Vulkanドライバ

モデル: Qwen3.6-35B-A3B(MoE、Q6_K 量子化、~30GB)

llama.cpp: commit 27aef3dd9

フラグ: -ngl 99 -p 512 -n 128 -t 8 -fa 1 -b 2048 -ub 512

結果(tokens/sec):

| Backend | pp512 | tg128 | Std Dev |

|---------|-------|-------|---------|

| ROCm0 | 841 | 42.3 | ±1.8 |

| Vulkan0 | 867 | 51.2 | ±0.5 |

Vulkanはトークン生成で約21%高速で、さらにより安定していました(分散が小さい)。プロンプト処理はだいたい同等です。

私は両方のバックエンドを同じバイナリに組み込みました(`-DGGML_HIP=ON -DGGML_VULKAN=ON`)。このワークロードでは `-dev Vulkan0` のほうがROCmより良い結果になります。

Strix Haloや、ほかのRDNA3.5チップでも同じようなことが起きた人はいないでしょうか。ROCmは、このGPU上の特定の演算(op)で、より遅いコードパスにフォールバックしているように見えます。

submitted by /u/FeiX7
[link] [comments]