8 GB VRAM搭載ゲーミングノートPC上での Qwen3.5-35B-3AB のベンチマーク: 100k コンテキスト窓で 26 t/s

Reddit r/LocalLLaMA / 2026/3/18

💬 オピニオンTools & Practical UsageModels & Research

要点

  • ベンチマークは、Qwen3.5-35B-A3B-UD-Q4_K_XL が 8 GB VRAM のゲーミングノートPC(RTX 4060)と 64 GB RAM 上で llama.cpp を用いて実行され、100k のコンテキスト窓で約 26 t/s の生成を達成した。
  • 結果にはコンテキスト深度依存のスループットが含まれており、5k コンテキスト時には約 403.3 t/s(プロンプト)と約 34.9 t/s(生成)、100k コンテキストでは約 330.7 t/s(プロンプト)と約 26.2 t/s(生成)まで低下する。
  • 測定の詳細は、ハードウェアとソフトウェアを明示しており:Lenovo 製ゲーミングノートPC、Windows、RTX 4060 8GB、i7-14000HX、64 GB RAM、llama.cpp(ビルド: c5a778891)、およびモデル Qwen3.5-35B-A3B-UD-Q4_K_XL(Unsloth)。
  • 著者はアップグレードの検討事項として、Strix Halo 128 GB は主に同じモデルのより高い割り当てを可能にするだけで、より大きなモデルを有効にするわけではない、という考えを示し、RX 7900 XTX の検討もしている。これらの選択についての意見を歓迎している。

皆さん、こんにちは、

ここ最近いくつかのベンチマークを見かけ、このデータもあなた方の中には興味深いと感じられる方がいるかもしれないと思いました。

私はGPUが乏しく(8 GB VRAM)ですが、ローカルLLMを使って機密データ/コード/情報を処理する際には時々「大きな」コンテキストウィンドウが必要です。新世代のQwenモデルの35B-A3Bモデルはこの点で特に魅力的であることが証明されています。驚くべきことに、VRAM 8 GBと64 GB RAMを搭載した私のゲーミングノートPCは、100kのコンテキストサイズで約26 t/sを達成します。

機械設定:

  • Lenovo製ゲーミングノートPC(Windows)
  • GPU: NVIDIA GeForce RTX 4060 8 GB
  • CPU: i7-14000HX
  • 64 GB RAM(DDR5 5200 MT/s)
  • バックエンド: llama.cpp(ビルド: c5a778891 (8233))

モデル: Qwen3.5-35B-A3B-UD-Q4_K_XL (Unsloth)

ベンチマーク:

llama-bench.exe ` -m "Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf" ` -b 4096 -ub 1024 ` --flash-attn 1 ` -t 16 --cpu-mask 0x0000FFFF --cpu-strict 1 ` --prio 3 ` -ngl 99 -ncmoe 35 ` -d 5000,10000,20000,50000,100000 -r 1 ` --progress 
コンテキストの深さ プロンプト (pp512) 生成 (tg128)
5,000 403.28 t/s 34.93 t/s
10,000 391.45 t/s 34.51 t/s
20,000 371.26 t/s 33.40 t/s
50,000 353.15 t/s 29.84 t/s
100,000 330.69 t/s 26.18 t/s

私は現在、システムのアップグレードを検討しています。私の考えは Strix Halo 128 GB を入手することでしたが、現状の設定と比較すると、同じモデルのより高い量子化レベルで動作させると、わずかな速度向上しか得られないようです(参考: Strix Halo の最近のベンチマーク)、ただしより大きなモデルには対応していません。したがって、代わりに RX 7900 XTX の購入を検討しています。これについてのご意見をいただけると大変ありがたいです!

投稿者: /u/External_Dentist1928
[リンク] [コメント]