ASUS Zenbook A16(Snapdragon X2)でのtok/s(llama.cppでのWindows on ARM)

Reddit r/LocalLLaMA / 2026/4/19

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • この投稿は、Windows on ARM上でllama.cppを使い、ASUS Zenbook A16のSnapdragon X2 Elite Extreme(Qualcomm Oryon Gen 3)でLLMを動かしたときの観察・実行結果を共有しています。
  • 18コアCPU、48GBユニファイドメモリ(ピーク約228GB/s)に加えてAdreno GPUとHexagon NPUが搭載されていますが、報告されているテストではそれらを推論にうまく活用できていないとされています。
  • KleidiAI(SME2)は動作させられず、またllama.cpp上でAdreno GPUの出力を確認できなかったため、記載されたテストはすべてCPUのみで行われたものです。
  • 実用面では、Qwen3.6(Q5_K_M量子化など)がバッテリー駆動でも十分使えると述べられており、アーキテクチャや量子化ごとのスループット比較表も提示されています。
  • 次の目標は、WhisperモデルをNPUで動かして低消費電力のディクテーションに繋げることだとしています。

llama.cpp 経由で ARM 上の Windows を搭載した新しいスナップドラゴン・チップセットについて、興味のある人向けの手早い数字だけ。

## ハードウェア

- Snapdragon X2 Elite Extreme (X2E94100, Qualcomm Oryon Gen 3)

- 18 個の CPU コア

- 48 GB ユニファイドメモリ

- 約 228 GB/s のピーク・メモリ帯域幅

- Adreno GPU(未使用)

- そこそこ優秀な Hexagon NPU(未使用)

- 報告されている ISA 機能: NEON, FMA, DOTPROD, I8MM, SVE/SVE2, SME/SME2, fp16

- 4096-bit マトリクスエンジン (SME2) — ハードウェアに搭載

KleidiAI(SME2)が動かせませんでした(たぶん Windows の問題?)

llama.cpp は Adreno GPU を認識して使おうとしますが、こちらで試した限りでは Adreno GPU を 100% にはできるものの、出力が一度も見えません。したがって、以下のテストはすべてユニファイドメモリを使った CPU のみです。

opencode で Q5 qwen3.6 を使っていますが、実際かなり使いやすいです!最速ではないものの、ローカルで動かせるのがとても楽しい。バッテリー動作でも問題なくモリモリ進みます。ここまで、このノートPCには感心しています。

次のプロジェクトは、100% NPU で whisper モデルを動かすことです(qlcom がこれについて文献を出しているので、うまくいってほしい。そうすれば低消費電力のまま CC と opencode に向かって独り言ではなく“指示”できるようになります)。

### Q4_K_M のアーキテクチャ間比較 | モデル | アーキテクチャ | サイズ | Active | PP512 | TG128 | |---|---|---:|---|---:|---:| | Qwen3-4B | dense | 2.32 GiB | 4B | 248 t/s | 42 t/s | | Gemma-4-31B-it | dense | 18.24 GiB | 31B | 39 t/s | **6.5 t/s** | | Gemma-4-26B-A4B-it | MoE | 15.63 GiB | ~4B | 168 t/s | 31 t/s | | Qwen3.6-35B-A3B | MoE | 19.91 GiB | ~3B | 171 t/s | 33 t/s | ### Qwen3.6-35B-A3B の量子化 + ランタイム設定比較 | 量子化 | サイズ | KV 設定 | PP512 | TG128 | |---|---:|---|---:|---:| | Q4_K_M | 19.91 GiB | fp16、FA なし | 171 | 33.0 | | Q5_K_M | 23.29 GiB | fp16、FA なし | 153 | 30.4 | | **Q5_K_M** | **23.29 GiB** | **q8_0 KV + FA(opencode)** | **145** | **29.6** | 
投稿者 /u/Hotschmoe
[リンク] [コメント]