皆さん、こんにちは、
ここ最近いくつかのベンチマークを見かけ、このデータもあなた方の中には興味深いと感じられる方がいるかもしれないと思いました。
私はGPUが乏しく(8 GB VRAM)ですが、ローカルLLMを使って機密データ/コード/情報を処理する際には時々「大きな」コンテキストウィンドウが必要です。新世代のQwenモデルの35B-A3Bモデルはこの点で特に魅力的であることが証明されています。驚くべきことに、VRAM 8 GBと64 GB RAMを搭載した私のゲーミングノートPCは、100kのコンテキストサイズで約26 t/sを達成します。
機械設定:
- Lenovo製ゲーミングノートPC(Windows)
- GPU: NVIDIA GeForce RTX 4060 8 GB
- CPU: i7-14000HX
- 64 GB RAM(DDR5 5200 MT/s)
- バックエンド: llama.cpp(ビルド: c5a778891 (8233))
モデル: Qwen3.5-35B-A3B-UD-Q4_K_XL (Unsloth)
ベンチマーク:
llama-bench.exe ` -m "Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf" ` -b 4096 -ub 1024 ` --flash-attn 1 ` -t 16 --cpu-mask 0x0000FFFF --cpu-strict 1 ` --prio 3 ` -ngl 99 -ncmoe 35 ` -d 5000,10000,20000,50000,100000 -r 1 ` --progress | コンテキストの深さ | プロンプト (pp512) | 生成 (tg128) |
|---|---|---|
| 5,000 | 403.28 t/s | 34.93 t/s |
| 10,000 | 391.45 t/s | 34.51 t/s |
| 20,000 | 371.26 t/s | 33.40 t/s |
| 50,000 | 353.15 t/s | 29.84 t/s |
| 100,000 | 330.69 t/s | 26.18 t/s |
私は現在、システムのアップグレードを検討しています。私の考えは Strix Halo 128 GB を入手することでしたが、現状の設定と比較すると、同じモデルのより高い量子化レベルで動作させると、わずかな速度向上しか得られないようです(参考: Strix Halo の最近のベンチマーク)、ただしより大きなモデルには対応していません。したがって、代わりに RX 7900 XTX の購入を検討しています。これについてのご意見をいただけると大変ありがたいです!
[リンク] [コメント]
