llama.cpp 経由で ARM 上の Windows を搭載した新しいスナップドラゴン・チップセットについて、興味のある人向けの手早い数字だけ。
## ハードウェア
- Snapdragon X2 Elite Extreme (X2E94100, Qualcomm Oryon Gen 3)
- 18 個の CPU コア
- 48 GB ユニファイドメモリ
- 約 228 GB/s のピーク・メモリ帯域幅
- Adreno GPU(未使用)
- そこそこ優秀な Hexagon NPU(未使用)
- 報告されている ISA 機能: NEON, FMA, DOTPROD, I8MM, SVE/SVE2, SME/SME2, fp16
- 4096-bit マトリクスエンジン (SME2) — ハードウェアに搭載
KleidiAI(SME2)が動かせませんでした(たぶん Windows の問題?)
llama.cpp は Adreno GPU を認識して使おうとしますが、こちらで試した限りでは Adreno GPU を 100% にはできるものの、出力が一度も見えません。したがって、以下のテストはすべてユニファイドメモリを使った CPU のみです。
opencode で Q5 qwen3.6 を使っていますが、実際かなり使いやすいです!最速ではないものの、ローカルで動かせるのがとても楽しい。バッテリー動作でも問題なくモリモリ進みます。ここまで、このノートPCには感心しています。
次のプロジェクトは、100% NPU で whisper モデルを動かすことです(qlcom がこれについて文献を出しているので、うまくいってほしい。そうすれば低消費電力のまま CC と opencode に向かって独り言ではなく“指示”できるようになります)。
### Q4_K_M のアーキテクチャ間比較 | モデル | アーキテクチャ | サイズ | Active | PP512 | TG128 | |---|---|---:|---|---:|---:| | Qwen3-4B | dense | 2.32 GiB | 4B | 248 t/s | 42 t/s | | Gemma-4-31B-it | dense | 18.24 GiB | 31B | 39 t/s | **6.5 t/s** | | Gemma-4-26B-A4B-it | MoE | 15.63 GiB | ~4B | 168 t/s | 31 t/s | | Qwen3.6-35B-A3B | MoE | 19.91 GiB | ~3B | 171 t/s | 33 t/s | ### Qwen3.6-35B-A3B の量子化 + ランタイム設定比較 | 量子化 | サイズ | KV 設定 | PP512 | TG128 | |---|---:|---|---:|---:| | Q4_K_M | 19.91 GiB | fp16、FA なし | 171 | 33.0 | | Q5_K_M | 23.29 GiB | fp16、FA なし | 153 | 30.4 | | **Q5_K_M** | **23.29 GiB** | **q8_0 KV + FA(opencode)** | **145** | **29.6** | [リンク] [コメント]




